vget v0.12.0 发布：AI 语音转文字功能上线

vget

语音转文字

字幕

transcribe

vget v0.12.0 新增 AI 功能，支持高质量语音转文字，可输出 Markdown 或 SRT 字幕格式

AI 功能正式上线

vget v0.12.0 带来了全新的 AI 功能模块，首个功能是语音转文字（Speech-to-Text）。经过测试，转写效果非常出色，无论是播客、会议录音还是视频配音，都能准确识别。

命令行使用

在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字：

# 基础用法：转写音频文件，默认输出 Markdown 格式
vget ai transcribe ./recording.mp3

# 指定语言：使用 -l 参数指定音频语言
vget ai transcribe -l zh ./interview.mp3

# 输出字幕文件：使用 -o 参数指定输出为 SRT 格式
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt

# 转写视频文件：自动提取音频后进行转写
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt

Docker Web 界面

在 Docker 部署的 Web 界面中，点击左侧导航栏的 AI 图标即可访问语音转文字功能：

选择文件 - 可以从 /home/vget/downloads 目录选择已下载的文件，也可以直接上传本地文件
设置语言 - 选择音频对应的语言以获得最佳识别效果
选择格式 - 支持 Markdown 文本或 SRT 字幕格式输出
开始转写 - 点击按钮即可开始，转写完成后可直接下载结果

支持的文件格式

类型	支持格式
音频	MP3, WAV, M4A, FLAC, OGG, AAC
视频	MP4, MKV, MOV, AVI, WebM

对于视频文件，vget 会自动提取音频轨道后进行转写，无需手动转换。

支持的语言

vget AI 支持多种语言的语音识别，通过 -l 参数指定：

语言代码	语言
en	英语（默认）
zh	中文
ja	日语
ko	韩语
es	西班牙语
fr	法语
de	德语

输出格式说明

Markdown 格式（默认）

适合阅读和进一步编辑，转写结果会按段落整理，便于后续处理。

SRT 字幕格式

标准的字幕文件格式，包含时间轴信息，可直接用于视频播放器或视频编辑软件：

1
00:00:00,000 --> 00:00:03,500
大家好，欢迎收听本期播客

2
00:00:03,500 --> 00:00:07,200
今天我们来聊一聊人工智能的发展

使用场景

播客转录 - 将播客内容转为文字，便于搜索和引用
会议记录 - 快速生成会议纪要
视频字幕 - 为视频自动生成字幕文件
学习笔记 - 将课程录音转为可编辑的文字笔记

下一步计划

支持更多 AI 功能（翻译、摘要等）
优化长音频的处理性能
支持批量转写

欢迎在 GitHub 上提交反馈和建议！