録音データを文字に起こす作業に、AIを使う人が増えてきました。
Geminiを使えば、mp3などの音声ファイルをアップロードして指示を入力するだけで、文字起こしから配布できる水準の文章整形まで一気に行えます。Google AI Studioから無料で使えます。
LINE Clova Noteが有料化された今、大量の音声を無料で処理できるGoogle GeminiはAI文字起こしの選択肢として際立っています。
Geminiの特長
Geminiは、Googleが開発した大規模言語モデルです。大規模言語モデルとは、コンピューターが人間の言葉を理解・生成するための技術のことで、GeminiはGoogleのAI研究チームが開発したBERTというモデルから発展しています。
BERTはTransformerと呼ばれるアーキテクチャのうち、入力テキストの文脈を読み取るエンコーダ部分だけを使っています。文章の要約や翻訳など、テキスト全体の意味を把握する処理が得意なモデルです。
その長所を引き継いだGeminiは、200万トークンという非常に長いテキストを一度に扱えます。トークンとは単語や記号などの言語単位のことで、この長さは文字起こしのような大量テキスト処理に直接効いてきます。
Geminiでの文字起こし
1. モデル選び
画面右側のドロップダウンリストからモデルを選びます。2025年3月時点ではGemini Pro 2.0 Flashが処理速度と精度のバランスが良く、使いやすいです。
2. 音声ファイルのアップロード
音声ファイルはドラッグ&ドロップでアップロードできます。今回はZOOMミーティングの録画から抜き出したmp3ファイルを使いました。
以前はいったんGoogle Driveに保存してから取り込む手順が必要でしたが、今はChatGPTのように画面に直接ファイルを投入するだけで文字起こしが始まります。Google Driveの容量を気にする必要もなくなりました。
3. プロンプトの入力
音声ファイルをアップロードしたら、Geminiへの指示を入力します。文字起こしに特化する場合は、次のような一文で十分です。
「このファイルは録音データです。全ての言葉を省略せず、一言一句漏らさず文字起こしして下さい。」
出力されたテキストをコピーして保存すれば、文字起こしは完了です。
文章としての体裁を整える方法
文字起こしのままでは実際には使いにくい状態です。「えー」「まぁ」「で、」などのつなぎ言葉が残っており、もともと話し言葉なので報告書などには不完全です。
手作業で修正しようとすると1日では終わりません。大規模言語モデルはこの変換を自動でこなせます。一人が話している録音であれば、次のような指示で十分です。
「以下は音声の文字起こし文です。内容を一切省略せずに、口語体から文章体にしてください。」
「口語体から文章体に」という指定が処理の方向を決めます。この後に目指す形式、たとえば報告書・議事録・解説文などを指定すれば、用途に合った文章に仕上げられます。
録音から直接報告書を生成することも技術的には可能ですが、複数の作業を一度に与えると出力の質が下がります。文字起こし→口語から文章体への変換→形式の仕上げ、と段階を分けて指示を出すほうが精度の高い結果になります。
まとめ
録音から文字を起こして記録を作る作業は、仕事でも地域活動でも誰かが担うことになります。無料で30分程度あれば文章を整えられるとなれば、引き受けるハードルがずいぶん下がります。
7時間分のデータを処理した際は、1日の利用制限に引っかかり別のGoogleアカウントに切り替えて続けました。大量のテキストを処理するならGeminiは有力な選択肢です。