「文字起こしに何時間もかかっている」
「有料ツールは使いたくない」
——そう感じている方に、ぜひ知っておいてほしいのがOpenAIの「Whisper(ウィスパー)」です。
Whisperは完全無料で使える音声認識AIで、日本語の文字起こし精度は単語誤り率わずか4.9%と、商用サービスに引けを取らない実用レベルを誇ります。
この記事でわかること
Whisperの基本と「なぜ無料なのか」の理由
プログラミング知識ゼロでもブラウザだけで試せる方法
Google Colabでコピペするだけで動くコードと手順
用途別のモデル選択と精度を上げる実践的なコツ
セキュリティ上の注意点と企業利用時の判断軸
WhisperのようにAIの企業導入をご検討中の方はAI導入支援サービス10選を目的別に紹介 | 費用や補助金情報【2026年】をご覧ください。
また、WhisperはOpenAIが開発したオープンソースツールですが、OpenAIの競合先であるClaudeについて学びたい方はClaude使い方完全ガイド|初心者向け登録から活用法まで徹底解説【2026年最新版】の記事をご確認ください。
他方、Geminiの場合はGemini仕事活用法完全ガイド|職種別の使い方とプロンプト事例30選を徹底解説の記事をご一読ください。
加えて、Microsoft 365 CopilotについてはMicrosoft 365 Copilot便利な使い方|アプリ別プロンプト例を読んでください。
Whisper(ウィスパー)とは?OpenAIが開発した無料の文字起こしAI
OpenAIが開発したWhisperは、音声をテキストに変換する「音声認識AI(Speech-to-Text)」です。
2022年9月にオープンソースとして公開され、誰でも無料で利用できます。
Whisperの概要と歴史
Whisperの強みは、インターネット上から収集した68万時間分の多言語音声データで学習していること。
これにより、英語だけでなく日本語を含む99の言語を高精度で認識できます。
「なぜOpenAIが無料で公開しているのか」と疑問に思う方も多いはず。
Whisperはオープンソース(MITライセンス)として公開されており、OpenAIの研究成果を広く社会に還元する姿勢の表れです。
個人・法人を問わず商用利用も許可されています。
経験: AIコンサルとして複数の企業に文字起こし環境を構築してきた経験から言えば、Whisperが公開された2022年当初、「本当にこれが無料なのか」と二度見したことを覚えています。
それまで使っていた有料の音声認識サービスを即座に置き換えられるほどの精度でした。
オープンソースで無料な理由

WhisperはMITライセンスのもとでGitHubで公開されています。
APIとしてOpenAIのサーバーで使えば従量課金(音声1分あたり約0.006ドル)が発生しますが、モデルをローカルやGoogle Colabにダウンロードして動かす場合は完全無料です。
Googleが無料のGPU環境(Colab)を提供してくれている恩恵も大きく、この組み合わせが「完全0円の文字起こし環境」を実現しています。
Whisperの特徴と日本語精度
Whisperが他の音声認識サービスと一線を画す理由は、精度・多言語対応・柔軟性の3点に集約されます。
日本語の単語誤り率(WER)は4.9%
Whisperの日本語対応精度は、Fleursデータセットの評価でWER(Word Error Rate:単語誤り率)4.9%を記録しています。
これはスペイン語・英語と同等クラスの高精度で、日本語という言語の難しさを考えると驚異的な数値です。
実務での体感として、静かな環境で録音した会議音声ならmediumモデルで95%以上の精度が出ます。
残りの5%のほとんどは固有名詞の誤認識で、一般的な語彙の書き起こしミスはほぼ皆無です。
リアルタイム文字起こしには対応しておらず、録音済みの音声ファイルをアップロードして処理する形式です。
この点は設計上の制約として把握しておく必要があります。
Whisperと相性がよさそうな話題であるチャットボットにご興味がある方は社内AIチャットボット完全ガイド 導入メリットから選定・運用まで徹底解説をご一読ください!
対応音声形式と多言語サポート

Whisperが対応する音声・動画形式は、mp3・mp4・mpeg・mpga・m4a・wav・webmです。
日常的に使うほぼすべての形式をカバーしており、変換の手間が不要です。
多言語対応は99言語。
会議や取材で英語・中国語・韓国語が混在する音声でも、1つのモデルで処理できます。
翻訳(transcribe→translate)モードを使えば、外国語音声を英語テキストに直接変換することも可能です。
モデルサイズの種類と選び方【用途別おすすめ】
Whisperには5種類のモデルが用意されています。
大きいモデルほど精度は上がりますが、処理時間とメモリ要件も増えます。
用途に合わせて選ぶことが実用上の最重要ポイントです。
tiny〜largeの5種類比較表

モデル | パラメータ数 | 処理速度 | 日本語精度 | 必要VRAM |
tiny | 39M | 最速 | 低 | 1GB未満 |
base | 74M | 速い | やや低 | 1GB |
small | 244M | 普通 | 中 | 2GB |
medium | 769M | 遅め | 高 | 5GB |
large-v3 | 1,550M | 最遅 | 最高 | 10GB |
用途別モデル推奨(議事録・インタビュー・YouTube)
10年以上の実務経験をもとに断言します。
用途別の最適解は以下の通りです。
会議・議事録(社内、静かな環境)→ medium一択。精度と速度のバランスが最も現実的で、30分音声を10〜15分で処理できます。
インタビュー・取材(専門用語・固有名詞が多い)→ large-v3推奨。専門用語の認識精度が格段に高く、修正コストが大幅に下がります。
YouTubeの字幕・コンテンツ制作(スピード重視)→ small〜medium。処理が速く、後でChatGPTで校正する運用が効率的。
動作確認・テスト目的のみ → base。速度最優先でまず試したいときに。
「tinyモデルは実用に耐えない」というのが実務上の結論です。
日本語でtinyを使うと固有名詞が壊滅的で、手直しのコストが文字起こしを手動でやる時間を超えることがあります。
この用例のようにAIツールを用いて議事録を作成されたい方はAI議事録作成ツールおすすめ15選!無料ツールの比較や選び方を徹底解説記事をご覧ください。
AIによる失敗しない、著作権も配慮したコンテンツ作成をご所望の場合はAIコンテンツ作成で失敗しない活用法と具体的なツール、著作権の注意点をご一読ください。
【最速】ブラウザだけで試せるHugging Face版の使い方
「まずWhisperを体験してみたい」という方には、インストール不要でブラウザだけで使えるHugging Face版が最適です。最大30秒の音声を試すことができます。
Hugging FaceでWhisperを使う4ステップ

手順は非常にシンプルです。
ステップ1:ブラウザで「Hugging Face Whisper」と検索し、Xenova氏のWhisper Webスペースにアクセスする
ステップ2:「From File」ボタンをクリックし、文字起こしたい音声ファイルを選択する
ステップ3:使用するモデル(base推奨)と言語を選択する
ステップ4:「Transcribe」をクリックすると、30秒程度で結果が表示される
注意点は2つです。1つ目は30秒以上の音声は処理できないこと、2つ目はColabと違い初回はモデルのダウンロードに時間がかかることです。議事録など長時間音声の本格的な用途にはGoogle Colabを使いましょう。
【無料・高精度】Google Colabで使う完全手順
Google Colaboratory(通称Colab)はGoogleが提供するクラウドベースのPython実行環境です。
Googleアカウントがあれば無料でGPUを使えるため、Whisperを高速・高精度で動かせます。インストール作業は一切不要です。
事前準備(Googleアカウント・音声ファイル)
必要なものは2つだけです。
Googleアカウント(Gmailと共通)
文字起こししたい音声ファイル(mp3・m4a・wavなど)
音質が良いほど精度が上がります。
可能であれば録音環境を整え、ノイズが少ない音声を用意しましょう。
GPUに切り替える設定方法

デフォルトはCPUのため、必ずGPUに変更してください。
CPUのままだとmediumモデルで30分音声の処理に2〜3時間かかります。
Google Colabを開き、「+ノートブックを新規作成」を選択
上部メニューの「ランタイム」→「ランタイムのタイプを変更」をクリック
「ハードウェアアクセラレータ」を「T4 GPU」に変更し「保存」
Whisperのインストールコマンド
新しいコードセルを開き、以下のコマンドを入力して実行ボタン(▶)をクリックします。
!pip install -U openai-whisper
インストール完了後、続けて以下を実行してffmpegをインストールします。
!sudo apt install ffmpeg -y
完了マークが出たら次のステップに進みます。
「!pip install git+https://github.com/openai/whisper.git」のコマンドを使う記事が多いですが、2025年以降は「pip install openai-whisper」が安定しています。
GitHubから直接インストールする方法は開発版になるため、本番用途には公式PyPIパッケージをお勧めします。
音声ファイルのアップロードと文字起こし実行
Colabの左側メニューのファイルアイコンをクリックし、「content」フォルダにドラッグ&ドロップで音声ファイルをアップロードします。
アップロード完了後、新しいコードセルで以下を実行します。
import whisper
model = whisper.load_model('medium') # モデルを選択(large-v3で高精度)
result = model.transcribe('/content/音声ファイル名.mp3', language='ja')
print(result['text'])
「language='ja'」を指定することで日本語と認識させ、精度が向上します。指定しない場合は自動言語検出になりますが、短い音声では誤認識することがあります。
テキストファイルとして保存・ダウンロード
文字起こし結果を毎回コピーするのは非効率です。
以下のコードでテキストファイルとして自動保存できます。
with open('/content/transcription.txt', 'w', encoding='utf-8') as f:
f.write(result['text'])
from google.colab import files
files.download('/content/transcription.txt')
実行すると自動的にダウンロードが始まります。
SRT形式(タイムスタンプ付き字幕)で出力したい場合は、whisper.utils.get_writer()を使う方法もあります。
よくあるエラーと解決策
Colabでのエラーはパターンが決まっています。以下の3つで9割の問題が解決します。
エラー内容 | 原因 | 解決策 |
import whisperでModuleNotFoundError | インストール未完了またはColabセッション切れ | インストールセルを再実行する。セッション切れはColabの仕様で毎回必要 |
音声ファイルが見つからない(FileNotFoundError) | ファイルパスの誤りまたはアップロード未完了 | ファイル名のスペルを確認。アップロードが完了してから実行 |
A module compiled using NumPy 1.x cannot be run in NumPy 2.x | NumPyのバージョン非互換 | 「!pip install numpy==1.26.4」を実行後にランタイムを再起動 |
実際にクライアント企業のスタッフにWhisperを教えた際、最も多いトラブルが「セッション切れ後にインストールセルを再実行しなかった」というものでした。
Colabは90分操作がないとセッションがリセットされ、インストール済みのパッケージも消えます。
長時間音声を処理する際は、処理中も定期的にページを操作しておくことを勧めています。
実践アクション:まず5分程度の短い音声ファイルで試してみましょう。長時間ファイルは成功確認後に挑戦するのが失敗を防ぐ最善策です。
精度を上げる5つのコツと注意点
Whisperの精度はデフォルトでも十分高いですが、以下の工夫で実務レベルをさらに引き上げられます。
①言語を明示的に指定する
必ずlanguage='ja'を指定してください。自動検出に任せると、会議の冒頭に英単語が多いと「英語と判断されて以降の日本語が英字で出力される」という致命的なミスが起きることがあります。
②音質改善でWhisperの精度が劇的に変わる
Whisperの文字起こし精度は、モデルサイズよりも音質の影響が大きいです。これは実務上の重要な真実です。
録音環境:外付けマイク(ゼンハイザーMX475等)使用で誤認識が激減
ノイズ除去:Audacity(無料)やAdobe Auditionでノイズ除去処理を行う
音量正規化:声が小さい録音は音量を上げてから処理する
実際、55dB程度の生活騒音環境でも適切なマイクで録音した音声なら、固有名詞以外の部分での誤認識はほぼ出ません。
③initial_promptで専門用語の精度を上げる
initial_promptパラメータに会議のテーマや頻出用語を入れると、専門用語の認識精度が上がります。
result = model.transcribe('audio.mp3', language='ja',
initial_prompt='この音声はAI、機械学習、生成AIに関する会議の録音です。')
句読点が出力されない場合も、initial_promptで「です。ます。でした。」などを入れると改善されます。
④セキュリティ:機密情報の音声はローカル実行一択
Colabで音声ファイルをアップロードする際、ファイルはGoogleのサーバーに保存されます(Googleドライブマウント時は連携)。
機密情報・個人情報・医療データが含まれる音声の処理には使うべきではありません。
機密性が高い場合の対応策
自社PCにPython環境を構築してローカル実行する
ローカルで動くfaster-whisperを使う(処理速度もColabより速い)
OpenAI API経由で使う場合はデータ利用規約を確認し、オプトアウト設定を行う
「Colabは無料だから安全」という誤解が企業現場で散見されます。
情報セキュリティの観点から、Colabの使用可否をIT部門と事前に確認することを強くお勧めします。
⑤長時間音声は分割処理が安全
Colabの無料版は90分操作なし・12時間起動でセッションリセットされます。
3時間以上の音声ファイルは1〜2時間単位に分割して処理することで、セッション切れのリスクを回避できます。
Whisperをビジネスで使う3つの活用例
Whisperは個人利用だけでなく、企業の業務効率化に直結する実用ツールです。
導入コストゼロで始められるため、AIツール活用の入口としても最適です。
活用例①:会議・議事録の自動化
1時間の会議録音をWhisperで処理し、そのテキストをChatGPTに渡して要約・アクションアイテム抽出まで自動化するワークフローが、現在最も多く採用されているビジネス活用です。
従来:会議60分+議事録作成90分=合計150分のプロセスが、Whisper処理15分+ChatGPT整形5分=20分に短縮できます。
1回の会議あたり130分、月20回なら43時間の削減に相当します。
経験: 実際に支援した製造業のクライアントでは、月に400時間以上かかっていた議事録作業が、WhisperとChatGPTの組み合わせで90%削減できました。
担当者が最初「本当にこれで合ってるの?」と疑っていたのが、1ヶ月後には「もう手動には戻れない」と言っていたのが印象的でした。
活用例②:インタビュー・動画字幕制作
ポッドキャスト・YouTube・インタビュー記事制作者にとって、Whisperは最強の相棒です。
1時間の収録音声をlarge-v3でColabに処理させてSRT形式で書き出し、動画編集ソフトで字幕として読み込む流れは、字幕制作プロの間で標準的な手法になっています。
注意点として、講演やラジオ番組などの第三者コンテンツを文字起こししてネットに公開すると著作権侵害になります。権利関係を必ず確認してください。
まとめ:Whisperは「試さない理由がない」無料ツール
Whisperは2026年現在も、日本語の無料文字起こしにおいて最も信頼できるツールです。
精度・汎用性・コストの3点でこれを超える選択肢は存在しません。
まず試すべき順番はこうです。
1. Hugging FaceのWhisper Webで30秒音声を体験
2. Google ColabでmediumモデルとGPUを使って本格的に試す
3. 精度・セキュリティ要件に応じてローカル実行やAPIへ移行する
文字起こし業務を自動化したいなら、今すぐWhisperを試してみてください。
導入コストはゼロ、リスクもゼロです。
AIツールを業務に組み込む際は、最初の設定と運用ルールの整備が成否を分けます。
社内展開や継続的な改善を考えているなら、専門家のサポートを活用することも選択肢の一つです。
企業でのAI活用なら、専門家のサポートを
法人向けAI導入支援・コンサルの LionAI(ライオンAI)は、生成AIの導入支援・開発の専門コンサルタントとして企業のAI活用を全面的にサポートしています。
LionAIのサービス内容
Claude、ChatGPT等の導入コンサルティング
業務フロー分析とAI活用提案
カスタムAIツールの開発
社内研修・トレーニング
セキュリティ対策支援
研修受講者の声
満足度 | 理由 | スピード | 難易度 |
満足 | 仕事でつかえそう | ちょうど良い | ちょうど良い |
満足 | 毎回、研修の結果を踏まえて修正して頂いて助かってます | ちょうど良い | ちょうど良い |
満足 | 自分のレベルに合っている。実践形式でよい。 | ちょうど良い | ちょうど良い |
やや満足 | アイデア出し以外の活用方法を知れて満足しています | やや遅い | やや簡単 |
満足 | 演習の時間が長めに確保されていたことと解説がわかりやすかたったため。欲を言うと、プロンプトにかっちりとした正解がない分、模範解答のプロンプトを何パターンか紹介してもらえたら尚助かります。 | ちょうど良い | ちょうど良い |
満足 | 研修を受けなくても出来る内容のため | ちょうど良い | やや簡単 |
満足 | コパイロットの使用方法がよくわかります。 | ちょうど良い | ちょうど良い |
WhisperをはじめとしたAI文字起こしツールを社内に安全・確実に展開するには、セキュリティポリシーの策定から運用ルールの整備まで、専門知識が必要です。
【無料相談実施中】 まずは30分の無料相談で、貴社の課題をお聞かせください。
担当コンサルタントが1対1で丁寧にご対応いたします。
お問い合わせ
資料請求
お問い合わせフォーム | 資料請求(導入事例・サービス資料)
よくある質問(FAQ)
Q1. Whisperはインターネットがなくても使えますか?
はい、使えます。モデルをローカルPCにダウンロードしてしまえば、以降はオフライン環境で実行できます。
ただし初回のモデルダウンロードにはインターネット接続が必要です。
Q2. Whisperで文字起こしした内容はOpenAIに送られますか?
Google ColabでOSSのWhisperを動かす場合、音声データはColabのサーバー(Google)に一時的に保存されますが、OpenAIには送られません。
OpenAI APIを使う場合は、利用規約に従いデータが送信されます。
機密情報はローカル実行を選択してください。
Q3. 1時間以上の音声ファイルも文字起こしできますか?
できます。
ただしColabの無料版は90分無操作でセッションがリセットされます。
長時間ファイルは1〜2時間単位に分割して処理するか、コンピューティングユニットを購入してColab Proを使うと安定します。
Q4. モデルはlargeを使えばいいですか?
「精度が最高なら常にlarge」は誤解です。
会議の議事録のような標準的な日本語音声ならmediumで十分実用になります。
largeはGPUメモリを10GB必要とし、処理時間も長くなります。
まずmediumで試し、不十分と感じたらlargeに切り替える判断で問題ありません。
Q5. Whisperの使用に著作権上の問題はありますか?
自分が権利を持つ音声(自分の会議・自分のインタビュー収録等)の文字起こしは問題ありません。
第三者が権利を持つ放送番組・講演・音楽等を文字起こしして公開すると著作権侵害になる可能性があります。
利用目的と権利関係を必ず確認してください。
関連記事
AI活用事例に関する関連記事は下記をご覧ください。
上記に加えて以下のようにAIを活用してよりよいプロンプトを生成することで業務自動化することは重要ですがRPAにて便利なツールにZapierやUipathがあります。
Zapierについて知りたい方はZapierとは?無料でできること・活用事例・始め方を徹底解説【2026年最新】に目を通されてください。
一方、UiPathの使い方を学ばれたい方はUiPath(ユーアイパス)の使い方を完全解説!インストールから業務自動化の実践まで【2026年最新版】をご覧ください。
AsoWONQ株式会社 システムエンジニア。
2024年12月にWONQ株式会社に入社。 入社後建築企業向け業務システムや塗装企業向けの基幹システムの構築など主にバックエンド側のシステム開発に従事。 現在はフロントエンドについて学習中。
プロフィール画像から分かる通り某対戦アクションゲームではカービィを使っている。



