AIでテープ起こしをする(2024備忘録mac)
生成AIの発展が著しい今日この頃、翻訳や要約、それからプログラミングはかなりAIにやってもらえる感じになっています。そろそろテープ起こしもできるかもということで、備忘録です。結論から言うと、業者に任せられるのならば、任せた方がよい。でも、自分でやらないといけないのならば、利用した方がいい、と言う感じです。
whisper + chatGPTの組み合わせ
ウェブで検索してみても、この選択肢がいいように思いました。遠からず、GPTにまとめて放り込めるようになりそうですが、今のところそうではないため、whisperの利用についてハードルがあります。whisperを利用するためには別途pythonを動かす必要があります。それさえできれば、極めて簡単です。
1.まず、pythonをアップデートする
実はこれに一番苦労しました。多分過去にpythonをいろいろいじっていたため、アップデートがうまくできませんでした。macでは、デフォルトでpythonが入っていますが、バージョンが2だったりします。これを3.8以降にする必要があります。
しかし同時に副産物的に学んだのは、この手のエラーやコードについては、GPTが格段に優れた回答を返すことでした。プログラミングの世界ではAIがすごいと聞いていましたが、その一端を感じました。
本来であれば、アップデートは容易のはずです。ターミナルを開きます。他にもいくつかパターンがあるみたい。今回は、brewやpyenvがうまくいかずで苦労しました。。。結果的に「3」が抜けていたからかも、、ということで、「3」を含めるようにしたらうまく行った次第です。
2.whisperを組み込む
こちらも本来簡単のはずです。改めてターミナルに、以下の一文を入れます。このあたり、GPTに聞きながらやるのがおすすめです。エラーが出た場合の対応コードも提示してくれます。上記のアップデートがうまくいかなかったため、ここも苦労しました。
3.whisperのスクリプトを作る
whisperが組み込めたら、実際にwhisperで読み込むコードをスクリプトとしてファイル(例えば、script.py)にしておき、これと、音声ファイルを指定します。これもGPTが原案を作ってくれるので、少し変えてコピペ。modelのbaseをlargeに変えると、時間と引き換えにより性能が良くなる。largeにした方が良さそう。
ーーーーーーーーーーーーーーーー
import whisper
# モデルのロード
model = whisper.load_model(“base”)
# 変換したい音声ファイルのパス
audio_path = “test.m4a”
# 音声をテキストに変換
result = model.transcribe(audio_path)
# 結果のテキストを表示
print(result[“text”])
ーーーーーーーーーーーーーーーーー
4.pythonでwhisperのスクリプトを実行(その前に、ffmpegもインストール)
ここまでできたら、改めてターミナル上でpythonを実行。
実際には、ここでもエラーが出て、「ffmpeg」がないとのこと。音声を認識するためのツールのようです。こちらも別途ターミナルからインストールしました。こんな感じ。とにかくエラーが出たら別途GPTに読み込ませるのがいい。
5.出力されたテキストをGPTに読ませて整文
音声ファイルのサイズにもよりますが、10メガぐらいだと10分かからないぐらいでした。エラーで止まったように見えますが裏で走っていて、そのうちテキストを出力します。まあある程度できている気はしますが、句読点がないのと、変な言葉になっていたりもするので、このままは流石に読みにくい。
ということで、こちらをテキストファイルにでもして、GPTに読み込ませます。「あなたは、テープ起こしのプロです。添付ファイルをゆっくりと確認し、句読点をつけ、改行を行い、誤字脱字を修正し、読みやすい文章にしてください。出来上がった文章はテキストファイルでダウンロードできるようにしてください。」みたいな感じで指示を出します。この辺りは試行錯誤した方が良さそう。
まあ読みやすくなった感じになります。ちなみに、画像だとよくわからないですが、これは読み取りにくようにわざと切り取っているからということもあります。
あとは、音声を2倍速にでもして聞きながら、間違っているところを直していく感じかと思います。