
アプリケーション
【Whisper】音声ファイルを文字起こしする
Whisper-v3-largeを使い、ドラッグ&ドロップで簡単に音声ファイルを文字起こしする
8k39
公開日: 2025年9月29日
【Whisper】音声ファイルを文字起こしする
はじめに
※この記事ではWindows環境前提で作成しました。
音声ファイルの文字起こしを行いたい場合、GroqCloudのようなクラウドサービスを使用する方法もありますが、ローカル環境で処理したい場合もあります。
大きいファイルはクラウドサービスを使用する事でPCを付けっぱなしにする必要もなく、より高速で処理できます。
事前準備
必要な環境
- Python 3.8以上
- FFmpeg
インストール手順
1. 必要なライブラリのインストール
python、pipがインストールされている事を確認するためにバージョン確認を行う。
python --version
pip --versionバージョンが書かれていたら依存関係をインストールする。
# PyTorchのインストール(CUDA版)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# Whisperのインストール
pip install openai-whisper
# その他の依存関係
pip install ffmpeg-python2. FFmpegのインストール
Whisperは音声ファイルの変換にFFmpegを使用します。
自動インストール(推奨)
# Windows(Chocolatey使用)
winget install ffmpegWingetを使用することでパスまで自動で通してくれます。
一応インストール後はターミナルでバージョン確認を行って、パスが通ってるか確認する。
ffmpeg -versionスクリプトのダウンロード
ドラッグ&ドロップで処理できるBATファイルも配布しています:
Whisper-bat - GitHub Repository
使用方法
1. 使い方
whisper_drag_drop.batに音声ファイルをドラッグ&ドロップすると処理が開始されます。
完了すると変換元ファイルと同じフォルダに_transcript.txtファイルが生成されます。
参考リンク
- GitHub - Whisper-bat: 完成したスクリプト
- OpenAI Whisper: 公式リポジトリ
- PyTorch CUDA: CUDA版PyTorchインストール
- FFmpeg: 音声変換ライブラリ
- Groq API版の記事: クラウド処理版