vget v0.12.0 发布:AI 语音转文字功能上线
vget
ai
语音转文字
字幕
transcribe
vget v0.12.0 新增 AI 功能,支持高质量语音转文字,可输出 Markdown 或 SRT 字幕格式
AI 功能正式上线
vget v0.12.0 带来了全新的 AI 功能模块,首个功能是语音转文字(Speech-to-Text)。经过测试,转写效果非常出色,无论是播客、会议录音还是视频配音,都能准确识别。
命令行使用
在 CLI 中使用 vget ai transcribe 命令即可进行语音转文字:
# 基础用法:转写音频文件,默认输出 Markdown 格式
vget ai transcribe ./recording.mp3
# 指定语言:使用 -l 参数指定音频语言
vget ai transcribe -l zh ./interview.mp3
# 输出字幕文件:使用 -o 参数指定输出为 SRT 格式
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt
# 转写视频文件:自动提取音频后进行转写
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt
Docker Web 界面
在 Docker 部署的 Web 界面中,点击左侧导航栏的 AI 图标即可访问语音转文字功能:
- 选择文件 - 可以从
/home/vget/downloads目录选择已下载的文件,也可以直接上传本地文件 - 设置语言 - 选择音频对应的语言以获得最佳识别效果
- 选择格式 - 支持 Markdown 文本或 SRT 字幕格式输出
- 开始转写 - 点击按钮即可开始,转写完成后可直接下载结果
支持的文件格式
| 类型 | 支持格式 |
|---|---|
| 音频 | MP3, WAV, M4A, FLAC, OGG, AAC |
| 视频 | MP4, MKV, MOV, AVI, WebM |
对于视频文件,vget 会自动提取音频轨道后进行转写,无需手动转换。
支持的语言
vget AI 支持多种语言的语音识别,通过 -l 参数指定:
| 语言代码 | 语言 |
|---|---|
| en | 英语(默认) |
| zh | 中文 |
| ja | 日语 |
| ko | 韩语 |
| es | 西班牙语 |
| fr | 法语 |
| de | 德语 |
输出格式说明
Markdown 格式(默认)
适合阅读和进一步编辑,转写结果会按段落整理,便于后续处理。
SRT 字幕格式
标准的字幕文件格式,包含时间轴信息,可直接用于视频播放器或视频编辑软件:
1
00:00:00,000 --> 00:00:03,500
大家好,欢迎收听本期播客
2
00:00:03,500 --> 00:00:07,200
今天我们来聊一聊人工智能的发展
使用场景
- 播客转录 - 将播客内容转为文字,便于搜索和引用
- 会议记录 - 快速生成会议纪要
- 视频字幕 - 为视频自动生成字幕文件
- 学习笔记 - 将课程录音转为可编辑的文字笔记
下一步计划
- 支持更多 AI 功能(翻译、摘要等)
- 优化长音频的处理性能
- 支持批量转写
欢迎在 GitHub 上提交反馈和建议!