vget v0.12.0 リリース:AI 音声文字起こし機能を搭載

vget
ai
音声文字起こし
字幕
transcribe
vget v0.12.0 で AI 機能が登場、高品質な音声文字起こしに対応、Markdown や SRT 字幕形式で出力可能

AI 機能がついに登場

vget v0.12.0 で全く新しい AI モジュールが追加されました。最初の機能は**音声文字起こし(Speech-to-Text)**です。テストの結果、文字起こしの精度は非常に優秀で、ポッドキャスト、会議録音、動画のナレーションなど、あらゆるコンテンツを正確に認識します。

コマンドライン使用方法

CLI で vget ai transcribe コマンドを使って音声文字起こしを実行できます:

# 基本的な使い方:音声ファイルを文字起こし、デフォルトで Markdown 形式で出力
vget ai transcribe ./recording.mp3

# 言語を指定:-l パラメータで音声の言語を指定
vget ai transcribe -l zh ./interview.mp3

# 字幕ファイルを出力:-o パラメータで SRT 形式として出力
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt

# 動画ファイルを文字起こし:音声を自動抽出してから文字起こし
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt

Docker Web インターフェース

Docker でデプロイした Web インターフェースでは、左側のナビゲーションバーにある AI アイコンをクリックして音声文字起こし機能にアクセスできます:

  1. ファイルを選択 - /home/vget/downloads ディレクトリのファイルから選択するか、ローカルファイルを直接アップロード
  2. 言語を設定 - 最適な認識精度を得るために音声の言語を選択
  3. フォーマットを選択 - Markdown テキストまたは SRT 字幕形式での出力に対応
  4. 文字起こし開始 - ボタンをクリックして開始、完了後に結果をダウンロード可能

対応ファイル形式

タイプ対応フォーマット
音声MP3, WAV, M4A, FLAC, OGG, AAC
動画MP4, MKV, MOV, AVI, WebM

動画ファイルの場合、vget は自動的に音声トラックを抽出してから文字起こしを行います。手動での変換は不要です。

対応言語

vget AI は複数の言語での音声認識に対応しており、-l パラメータで指定できます:

コード言語
en英語(デフォルト)
zh中国語
ja日本語
ko韓国語
esスペイン語
frフランス語
deドイツ語

出力フォーマットの詳細

Markdown 形式(デフォルト)

読みやすく、さらなる編集に最適です。文字起こし結果は段落ごとに整理され、後処理が簡単です。

SRT 字幕形式

タイムライン情報を含む標準的な字幕ファイル形式で、動画プレーヤーや編集ソフトウェアでそのまま使用できます:

1
00:00:00,000 --> 00:00:03,500
皆さんこんにちは、今回のエピソードへようこそ

2
00:00:03,500 --> 00:00:07,200
今日は AI の発展についてお話しします

ユースケース

今後の予定

GitHub でフィードバックやご提案をお待ちしています!