AIでテープ起こしをする(2024備忘録mac)

生成AIの発展が著しい今日この頃、翻訳や要約、それからプログラミングはかなりAIにやってもらえる感じになっています。そろそろテープ起こしもできるかもということで、備忘録です。結論から言うと、業者に任せられるのならば、任せた方がよい。でも、自分でやらないといけないのならば、利用した方がいい、と言う感じです。

whisper + chatGPTの組み合わせ

ウェブで検索してみても、この選択肢がいいように思いました。遠からず、GPTにまとめて放り込めるようになりそうですが、今のところそうではないため、whisperの利用についてハードルがあります。whisperを利用するためには別途pythonを動かす必要があります。それさえできれば、極めて簡単です。

1.まず、pythonをアップデートする

実はこれに一番苦労しました。多分過去にpythonをいろいろいじっていたため、アップデートがうまくできませんでした。macでは、デフォルトでpythonが入っていますが、バージョンが2だったりします。これを3.8以降にする必要があります。

しかし同時に副産物的に学んだのは、この手のエラーやコードについては、GPTが格段に優れた回答を返すことでした。プログラミングの世界ではAIがすごいと聞いていましたが、その一端を感じました。

本来であれば、アップデートは容易のはずです。ターミナルを開きます。他にもいくつかパターンがあるみたい。今回は、brewやpyenvがうまくいかずで苦労しました。。。結果的に「3」が抜けていたからかも、、ということで、「3」を含めるようにしたらうまく行った次第です。

brew upgrade python3

2.whisperを組み込む

こちらも本来簡単のはずです。改めてターミナルに、以下の一文を入れます。このあたり、GPTに聞きながらやるのがおすすめです。エラーが出た場合の対応コードも提示してくれます。上記のアップデートがうまくいかなかったため、ここも苦労しました。

pip install git+https://github.com/openai/whisper.git

3.whisperのスクリプトを作る

whisperが組み込めたら、実際にwhisperで読み込むコードをスクリプトとしてファイル(例えば、script.py)にしておき、これと、音声ファイルを指定します。これもGPTが原案を作ってくれるので、少し変えてコピペ。modelのbaseをlargeに変えると、時間と引き換えにより性能が良くなる。largeにした方が良さそう。

ーーーーーーーーーーーーーーーー
import whisper
# モデルのロード
model = whisper.load_model(“base”)
# 変換したい音声ファイルのパス
audio_path = “test.m4a”
# 音声をテキストに変換
result = model.transcribe(audio_path)
# 結果のテキストを表示
print(result[“text”])
ーーーーーーーーーーーーーーーーー

4.pythonでwhisperのスクリプトを実行（その前に、ffmpegもインストール）

ここまでできたら、改めてターミナル上でpythonを実行。

python script.py

実際には、ここでもエラーが出て、「ffmpeg」がないとのこと。音声を認識するためのツールのようです。こちらも別途ターミナルからインストールしました。こんな感じ。とにかくエラーが出たら別途GPTに読み込ませるのがいい。

brew install ffmpeg

5.出力されたテキストをGPTに読ませて整文

音声ファイルのサイズにもよりますが、10メガぐらいだと10分かからないぐらいでした。エラーで止まったように見えますが裏で走っていて、そのうちテキストを出力します。まあある程度できている気はしますが、句読点がないのと、変な言葉になっていたりもするので、このままは流石に読みにくい。

ということで、こちらをテキストファイルにでもして、GPTに読み込ませます。「あなたは、テープ起こしのプロです。添付ファイルをゆっくりと確認し、句読点をつけ、改行を行い、誤字脱字を修正し、読みやすい文章にしてください。出来上がった文章はテキストファイルでダウンロードできるようにしてください。」みたいな感じで指示を出します。この辺りは試行錯誤した方が良さそう。