OpenAI は whisper という文字起こしができるソフトウェアを提供しています。
オープンソース版を使えば、料金がかかることなく使うことができるのですが、Windowsでのセットアップはやや厄介です。
このため、Windowsでのセットアップの方法を解説していきます。また、公開されているサンプルデータを使って、実際に文字起こしにもトライしてみます。
セットアップ(1)
セットアップするのは以下の3つです。
- Python3
- ffmepg
- openai-whisper
まず、最初に Python3 と ffmpeg をインストールします。
Python3
Python3はMicrosoft Storeからインストールすることが簡単です。
- Windowsの左下の検索に “microsoft” と入れ、Microsoft Storeを開きます。
- 上部の検索窓に python3 といれ、現時点での最新版 Python 3.13 をインストールします。Pythonのバージョンは 3.8以降であれば大丈夫です。根拠は、openai-whisper の説明ページです。https://pypi.org/project/openai-whisper/ なお、ここには3.8-3.11とありますが、3.13でも問題なく動きました。
ffmpeg
ffmpegはオーディオファイルの変換に使われるプログラムです。ffmpegはインストーラーがありませんが、Powershellでwingetというプログラムを使うことでインストールとパスの設定までできます。
- Windowsの左下の検索ウィンドウに “powershell” と入力し、「管理者として実行する」をクリックします。
-
そうすると、Powershellが起動します。そこで、以下のようにタイプします。
winget install ffmpeg
- これにより、ffmpegのダウンロード、インストール、パス設定が行われます。
再起動
- パスの設定を確実にするために、ここで一度再起動してください。
音声ファイルの入手
手元に音声ファイルがあるのであればこれは不要です。ないようであれば、国語研コーパスポータルに学会講演のサンプル音声データがありましたので、そちらをダウンロードします。リンクはこちらになります。なお、音声ファイルは個別のフォルダの中に保存してください。今、私は、「ダウンロード」の下に「whisper-test」というフォルダを作成して、その下に aps-smp.mp3 をダウンロードしました。
Powershellの起動
openai-whisper を入力するために、Powershellを起動します。この際、テストまで一気にできるように、音声ファイルを保存したフォルダからPowershellを起動します。
- エクスプローラーで、音声ファイルを保存した場所に移動します。
- フォルダの何もないところで、右クリックし、「ターミナルで開く」をクリックします。
Pythonの確認
- ここで、Pythonが起動するか確認します。
-
ターミナルから以下のようにタイプしてください。
python3 --version
- これで、
Python 3.13.5
などのように表示されたらPythonは正しくインストールされています。
ffmepgの確認
-
同様に、ffmpeg も確認します。
-
ターミナルから以下のようにタイプしてください。今回はハイフンは1つなので注意してください。
ffmpeg -version
- 以下のようになったら正しく設定されています。
セットアップ(2)
- ここまで来たら openai-whisper がインストールできます。ターミナルから以下をタイプします。
pip install openai-whisper
これでインストールできるのですが、ひとつ注意は、本来はパスを設定しなければいけません。
しかし、それはめんどくさいので、以下で、それを回避して実行する方法を示します。
whisperの実行
-
それでは、早速実行します。先程書いたように、この状態では、whisperにパスが通っていないのですが、ひとつの工夫で実行できます。それは、
python -m
を頭につけることです。これをすると、whisperを python のモジュールとして実行できます。 -
以下のようにしてください。
python3 -m whisper aps-smp.mp3 --language ja
-
ご自身の音声ファイルがある場合、”aps-smp.mp3″ はご自身の音声ファイルに置き換えてください。
-
より細かい設定を知りたい場合は、以下で設定を知れます。
python3 -m whisper -h
結果の確認
- 結果はいくつかできますが、拡張子に txt がついているものはそのままWordなどにはりつけたりできるものとなります。これを生成AIに入力して議事録作成などにもできるでしょう。
(おまけ)Ubuntuの場合のセットアップ
- Ubuntuの場合、もっと話は簡単です。以下でセットアップできます。python3は入っていますのでインストール不要です。
sudo apt install ffmpeg pip install openai-whisper