class=""/> Google AI Studioでの音声・動画を
文字起こしは無料でもできる範囲が大きい

最近、Google AI Studioを使って、長めの作業動画や音声ファイルを文字起こしし、その内容を要約する作業を試しました。

関連記事

1. Google AI Studioを使う

音声や動画の文字起こし自体は、すでに多くのツールがあります。
ただ、今回は無料で1時間程度の音声を読み込んで文字起こしできる、Google AI Studioを選びました。

Google AI Studioを使う aistudio.google.com にアクセス Googleアカウントでログイン → Playgroundを選択 1 検索でアクセス 2 Googleアカウントでログイン 3 「Chat with models」を選択 特徴 ✓ ブラウザだけで利用可 ✓ 無料で使える ✓ 複雑な設定不要

Googleアカウントがあれば、スマートフォンのブラウザでもアクセスして使えます。

まずは aistudio.google.com にアクセスします。

Googleアカウントでログインすると、トップにいくつかボタンが並んでいるので、「Chat with models」を選びます。
Google AI Studioは、本来はアプリとつなぐAIモデルの調整をするための管理画面です。
ただ、「Playground」を使うと、Gemini(https://gemini.google.com/)のように文字起こしや要約などのチャットやり取りができます。

本来、有料限定でもおかしくない機能なので、現時点(2026-02-01)では無料アカウントでも制限なく利用できますが、いずれ制限が出てくるかもしれません1

2. 音声・動画ファイルのアップロード方法

ファイルのアップロード方法 入力欄の「+」をクリック ● ローカルファイル ● Googleドライブ プロンプト例 「文字起こししてください」 処理時間:数十秒〜数分 専門用語は誤変換の可能性あり

Playgroundの入力欄を見ると、テキスト入力の横に「+」アイコンがあります。
ここを押すと、ファイルの取り込み方法が選べます。

今回試したのは次の方法です2

・ローカルファイルのアップロード
・Googleドライブからの選択

スマートフォンからアクセスした場合は、写真ライブラリやカメラも選択肢に出てきます34
ただし、Google AI Studioの無料版では、入力データがGoogleの機械学習モデル改善に利用される可能性があり、人間のレビュアーがAPI入出力を確認する場合もあります5

チャットに音声ファイルを添付したら、プロンプト(指示文)を書きます。
かなり単純に、「文字起こししてください」と入力だけでも十分です6

実行すると、数十秒から数分で結果が返ってきました。

ただし、専門用語や固有名詞は誤変換されることがありますし、話し言葉特有の「あー」「えー」がそのまま残るケースもあります。
人間によるチェックは必須です。
ただ、ゼロから書き起こす作業が不要になるだけでも、作業時間は大きく短縮されます。

3. 要約を追加で依頼する流れ

文字起こしに続けて要約を依頼しました。
「内容を500文字程度で要約してください」といった具合です。

3. 要約を追加で依頼する流れ 文字起こし完了 結果を確認 そのまま続けて依頼 例:「500文字で 要約してください」 メリット ✓ 同じ画面で続けられる ✓ 文脈が引き継がれる ✓ 安定した要約品質 ✓ 話の流れを把握可能 ✓ 時間を大幅に短縮

すでに文字起こし結果が文脈として渡っているので、同じ画面で続けられます。

要約してしまえば、細かい文字起こしの問題は気になりません。
話の流れを大きく外すことは少なく、「何を話していたか」は十分把握できます。

一方で、細かいニュアンスは拾いきれない可能性はあります。
ここは人間が最後に目を通し、調整する前提で使うのが現実的だと捉えています。

4. 実務で使う場合の考えどころ

この一連の流れを試してみて、私は次のように考えています。

文字起こしと要約は「下書き生成」と割り切る。
最終成果物ではなく、考えるための素材として使う。
その位置づけにすると、Google AI Studioはかなり強力です。

特に長時間の動画や会議音声では、人が最初から最後まで聞く負担を大きく減らせます。

  1. Google AI Studioには無料枠が設定されており、1分あたりのリクエスト数(RPM)や1日あたりのリクエスト数(RPD)に上限があります。特に高性能なモデルほど制限は厳しくなっています。無料枠はあくまで実験・試用のためのもので、本格的な利用では有料プランへの移行が推奨されています。 – Google AI Studioの料金を用途・頻度別に徹底解説|無料枠から有料プランまでの使い分けガイド
  2. Gemini APIでは、動画はMP4、MPEG、MOV、AVI、FLV、MPG、WEBM、WMV、3GPP形式に対応し、音声はMP3、WAV、M4A、FLAC、AAC、OGG、OPUS形式に対応しています。 – 動画理解 | Gemini API | Google AI for Developers
  3. Geminiアプリではほとんどのファイル形式をサポートしており、最大10ファイルを同一のプロンプトにアップロードできます。動画のサイズは1ファイルにつき最大2GB、その他のファイルは100MBまで対応しています。 – Gemini アプリでファイルをアップロードして分析する
  4. Google AI Studioでは、100万個のコンテキストウィンドウを持つモデルは、デフォルトのメディア解像度で最大1時間、低メディア解像度で最大3時間の動画を処理できます。ファイルAPIを使用する場合、動画は1フレーム/秒(FPS)で保存され、音声は1Kbps(シングルチャンネル)で処理されます。 – 動画理解 | Gemini API | Google AI for Developers
  5. そのため、機密情報や個人情報を含む業務データの入力は避けるべきです。企業での安全な活用には、機密性の低いデータでの検証から始め、段階的に用途を拡大する戦略が推奨されています。 – Google AI Studio無料プランの制限と料金|使い方から商用利用まで解説
  6. Geminiアプリの無料版では、動画の長さは合計5分まで、音声の長さは合計10分までです。Google AI ProまたはGoogle AI Ultraにアップグレードすると、動画は合計1時間まで、音声は合計3時間までアップロード可能になります。 – Gemini アプリでファイルをアップロードして分析する