最近、Google AI Studioを使って、長めの作業動画や音声ファイルを文字起こしし、その内容を要約する作業を試しました。
1. Google AI Studioを使う
音声や動画の文字起こし自体は、すでに多くのツールがあります。
ただ、今回は無料で1時間程度の音声を読み込んで文字起こしできる、Google AI Studioを選びました。
Googleアカウントがあれば、スマートフォンのブラウザでもアクセスして使えます。
まずは aistudio.google.com にアクセスします。



Googleアカウントでログインすると、トップにいくつかボタンが並んでいるので、「Chat with models」を選びます。
Google AI Studioは、本来はアプリとつなぐAIモデルの調整をするための管理画面です。
ただ、「Playground」を使うと、Gemini(https://gemini.google.com/)のように文字起こしや要約などのチャットやり取りができます。
本来、有料限定でもおかしくない機能なので、現時点(2026-02-01)では無料アカウントでも制限なく利用できますが、いずれ制限が出てくるかもしれません1。
2. 音声・動画ファイルのアップロード方法
Playgroundの入力欄を見ると、テキスト入力の横に「+」アイコンがあります。
ここを押すと、ファイルの取り込み方法が選べます。



今回試したのは次の方法です2。
・ローカルファイルのアップロード
・Googleドライブからの選択
スマートフォンからアクセスした場合は、写真ライブラリやカメラも選択肢に出てきます34。
ただし、Google AI Studioの無料版では、入力データがGoogleの機械学習モデル改善に利用される可能性があり、人間のレビュアーがAPI入出力を確認する場合もあります5。
チャットに音声ファイルを添付したら、プロンプト(指示文)を書きます。
かなり単純に、「文字起こししてください」と入力だけでも十分です6。


実行すると、数十秒から数分で結果が返ってきました。
ただし、専門用語や固有名詞は誤変換されることがありますし、話し言葉特有の「あー」「えー」がそのまま残るケースもあります。
人間によるチェックは必須です。
ただ、ゼロから書き起こす作業が不要になるだけでも、作業時間は大きく短縮されます。
3. 要約を追加で依頼する流れ
文字起こしに続けて要約を依頼しました。
「内容を500文字程度で要約してください」といった具合です。
すでに文字起こし結果が文脈として渡っているので、同じ画面で続けられます。


要約してしまえば、細かい文字起こしの問題は気になりません。
話の流れを大きく外すことは少なく、「何を話していたか」は十分把握できます。
一方で、細かいニュアンスは拾いきれない可能性はあります。
ここは人間が最後に目を通し、調整する前提で使うのが現実的だと捉えています。
4. 実務で使う場合の考えどころ
この一連の流れを試してみて、私は次のように考えています。
文字起こしと要約は「下書き生成」と割り切る。
最終成果物ではなく、考えるための素材として使う。
その位置づけにすると、Google AI Studioはかなり強力です。
特に長時間の動画や会議音声では、人が最初から最後まで聞く負担を大きく減らせます。
- Google AI Studioには無料枠が設定されており、1分あたりのリクエスト数(RPM)や1日あたりのリクエスト数(RPD)に上限があります。特に高性能なモデルほど制限は厳しくなっています。無料枠はあくまで実験・試用のためのもので、本格的な利用では有料プランへの移行が推奨されています。 – Google AI Studioの料金を用途・頻度別に徹底解説|無料枠から有料プランまでの使い分けガイド
- Gemini APIでは、動画はMP4、MPEG、MOV、AVI、FLV、MPG、WEBM、WMV、3GPP形式に対応し、音声はMP3、WAV、M4A、FLAC、AAC、OGG、OPUS形式に対応しています。 – 動画理解 | Gemini API | Google AI for Developers
- Geminiアプリではほとんどのファイル形式をサポートしており、最大10ファイルを同一のプロンプトにアップロードできます。動画のサイズは1ファイルにつき最大2GB、その他のファイルは100MBまで対応しています。 – Gemini アプリでファイルをアップロードして分析する
- Google AI Studioでは、100万個のコンテキストウィンドウを持つモデルは、デフォルトのメディア解像度で最大1時間、低メディア解像度で最大3時間の動画を処理できます。ファイルAPIを使用する場合、動画は1フレーム/秒(FPS)で保存され、音声は1Kbps(シングルチャンネル)で処理されます。 – 動画理解 | Gemini API | Google AI for Developers
- そのため、機密情報や個人情報を含む業務データの入力は避けるべきです。企業での安全な活用には、機密性の低いデータでの検証から始め、段階的に用途を拡大する戦略が推奨されています。 – Google AI Studio無料プランの制限と料金|使い方から商用利用まで解説
- Geminiアプリの無料版では、動画の長さは合計5分まで、音声の長さは合計10分までです。Google AI ProまたはGoogle AI Ultraにアップグレードすると、動画は合計1時間まで、音声は合計3時間までアップロード可能になります。 – Gemini アプリでファイルをアップロードして分析する