録音データを文字に起こす時に、AIを使うことが広く普及してきました。
Geminiを使えば、mp3ファイルなどの音声データをアップロードし、適切な指示を入力するだけで、文字起こしだけでなく、人に配布できるレベルまで文章の形を整えることができます。Geminiは、Google AI Studioから無料で利用できます。
LINE Clova Noteが有料になった今、無料で大量の音声を文字に起こせるGoogle Geminiはとても貴重な存在です。
Geminiの特長
Geminiという大規模言語モデル(コンピューターが人間の言葉を理解し生成するための技術)は、もともとGoogleのAI研究チームが開発したBERTというTransformerの一部を使って作られたモデルから発展したものです。
Transformerは、入力された情報を理解するエンコーダと、出力を生成するデコーダから成り立っていますが、BERTはエンコーダ部分だけを使っています。これは、文章の要約や翻訳など、入力されたテキストの文脈や全体像を理解することが得意なモデルということです。
BERTから発展したと思われるGeminiも、その長所を受け継いでいるため、200万トークン(単語や記号などの言語単位)という非常に長い文章を扱うことができます。つまり、Geminiは長い文章の処理が得意なのです。
Geminiでの文字起こし
モデル選び
まず、文字起こしに使う大規模言語モデルを選びます。画面の右側のドロップダウンリストから選択します。おすすめは、現段階で一番賢いと言われる「Gemini 1.5 Pro 002」です。賢い分、出力はゆっくりになります。(2025年3月現在、モデルはアップデートされ、Gemini Pro 2.0 Flashが良いでしょう。)
音声ファイルのアップロード
次に、音声ファイルをアップロードします。今回は、ZOOMミーティングの録画から音声部分を抜き出したmp3ファイルから文字起こしを行います。音声ファイルはドラッグ&ドロップでアップロードできます。
以前は、音声ファイルを一度Googleドライブに入れてから文字起こしをするという面倒な手順が必要でした。しかし最近はその手順がなくなり、ChatGPTのように直接この画面に音声ファイルを入れるだけで文字起こしができるようになり、使いやすさが大幅に向上しました。GoogleDriveがすぐに容量不足になる心配もなくなりました。
文字起こしプロンプトの入力
次に、音声ファイルから文字起こしをするために、Geminiに指示(プロンプト)を入力します。今回は文字起こしに特化して、次のような指示としました。
「このファイルは録音データです。全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。」
この指示を入力すると、文字起こしが始まります。出力されたテキストをコピーしてファイルに保存すれば、文字起こしは完成です。
文章としての体裁を整える方法
ただ、通常はこれだけでは物足りないというか、実際に使えるレベルではありません。「えー」や「まぁ」、「で、」などのつなぎ言葉が入っているからです。さらに、もともとが話し言葉なので、報告書など何かに使用するための文章としては不完全です。この点を修正する必要があります。
これを手作業で直すと、おそらく1日では終わらないでしょう。しかし、大規模言語モデルは自動的にこの作業をしてくれます。今回のような、一人が話している文字起こしの場合は、もっと簡単な指示で十分です。以下は指示の例です。
「以下は音声の文字起こし文です。内容を一切省略せずに、口語体から文章体にしてください。」
「口語体から文章体に」という点が指示の重要なポイントです。さらにこの後に、目指す文章の形式に合わせて指示を作成して変更していけば良いのです。例えば、報告書、議事録、解説文などです。
録音データから一気に報告書にすることも指示を書けばできますが、大規模言語モデルは一度に複数の作業を与えても良い結果を出せるような仕組みになっていません。個別の作業に細かく分けて、作業ごとに指示を作成し、段階的に内容を仕上げていく方が、良い結果を得られます。
アップデート版(2024.10.29)
その後、話し言葉の長文を文章の形に変換するための、さらに良い【決定版】の指示ができましたので、ご紹介します。
まとめ
ビデオ録画や音声の録音から文字を起こして記録を作る作業は、誰にとっても担当になる可能性があります。仕事だけでなく、地域の集まりでもそのような仕事はあるでしょう。そんな時に手軽に無料で30分程度で文章を作れるようにすれば、とても便利ですし、喜ばれると思います。
このような身近なところからAIを活用していくのは、周りの人の理解も得やすく、良いのではないでしょうか。とにかく、この大量の情報処理を簡単にこなすGeminiはすごいです。
さすがに7時間分のデータは、1日分の利用制限の上限に引っかかり、無料利用の範囲では終わりませんでした。そのため、別のGoogleアカウントに切り替えて続けました。長い文章のデータ処理には、Geminiの利用をおすすめします。