音声認識AI「Whisper」をご存知でしょうか?WhisperはOpenAIが提供する最新の音声認識技術で、日本語音声でも高精度な文字起こしができます。しかし、どうやって使うのか分からないという方も多いのではないでしょうか。
この記事では、Whisperの概要やWhisperで文字起こしをするための方法、その他のおすすめ文字起こしツールについても解説しています。Whisperは無料で試すこともできますので、ぜひ使ってみてください。
目次
Whisper(音声認識AI)とは?
Whisperとは、ChatGPTを開発したOpenAIが提供している音声認識AIのことです。2022年9月から無料で一般公開されました。Whisperは機械学習アルゴリズムと深層学習を駆使して、高度な音声認識を実現しています。
Whisperは日本語や英語だけでなく、約100言語に対応しています。また、地域によるアクセントやイントネーションの違いや、専門用語にも対応しており、さまざまな国で利用され始めるようになりました。
Whisperの音声認識モデル
Whisperには「tiny」「base」「small」「medium」「large」の5種類のモデルが用意されており、それぞれ精度やサイズが異なります。短文や簡単な文章を文字起こしする場合は小さいサイズのモデルを使用し、専門用語や特殊なアクセント・イントネーションを認識させたい場合は高精度モデルを使用するとよいでしょう。
- tiny:最小モデル。処理は速いが、精度は最も低い。
- base:tinyより大きいモデル。tinyよりも精度は上がるが、誤字も散見される。
- small:baseより大きいモデル。文字起こし精度はさらに上がるが、不完全な場合もある。デフォルトモデル。
- medium:smallより大きいモデル。かなり性格に文字起こしでき、句読点も適切に打つことができる。
- large:最大モデル。ほぼ正確な日本語として文字起こしができる。処理には時間がかかる。
Whisperで文字起こし:Google Colaboratoryで環境構築する
ここからはWhisperを使って文字起こしを行う方法をご紹介します。Whisperを使って文字起こしをするには、実行環境を構築する必要があります。まずは無料で試せる「Google Colaboratory」で環境構築する方法について解説します。
環境設定を行う
Google Colaboratoryとは、Googleが機械学習の教育や研究用に提供しているサービスです。ソフトやアプリのインストール不要でPythonや機械学習・深層学習の環境を整えることができ、Googleアカウントがあれば誰でも無料で利用できます。「Colab」とも呼ばれています。
- まずはGoogle Colaboratoryを開き、「+ノートブックを新規作成」を選択します。
- 右上の「接続」ボタンをクリックし、「RAMディスク」と表示されることを確認します。
- コード入力欄に「!pip install git+https://github.com/openai/whisper.git」と入力し、実行(▷)ボタンをクリックします。
- 実行が完了したら「+コード」ボタンをクリックして、下部にコード入力欄を表示させます。
- コード入力欄に「import whisper」と入力し、実行ボタンをクリックします。
- 環境設定はこれで完了です。
音声ファイルを読み込ませる
実行環境が構築できたら、音声ファイルを読み込ませて文字起こしを開始します。
- 画面左側にあるファイルマークのボタンをクリックし、表示されたファイルの中から「content」を選択します。
- 用意した音声ファイルを「content」内にドラック&ドロップしてアップロードします。
- アップロードができたら「+コード」ボタンをクリックし、下部にコード入力欄を表示させます。
- コード入力欄に次のコードを入力し、実行ボタンをクリックします。
model = whisper.load_model(‘base’)
result = model.transcribe(‘ファイル名’)
print(result[‘text’]) - 処理が完了すると、下部に文字起こし結果が表示されます。
Whisperで文字起こし:writeout.aiを利用する
Whisperで文字起こしを行う方法として、「writeout.ai」を使う方法もあります。writeout.aiはWhisper APIとChat GPTを活用した文字起こしサービスです。こちらも無料で試せますので、その方法をご紹介します。
GitHubアカウントでログインする
- writeout.aiを利用するには、GitHubアカウントが必要です。アカウントが無い場合は作成しておきましょう。
- writeout.aiにアクセスし、「Start for free」ボタンをクリックします。
- GitHubアカウントでのサインインを求められますので、必要な情報を入力してください。アカウントが無い場合は、ここから作成することもできます。
- ログインしたら「Authorize Beyondcode」ボタンをクリックします。
音声ファイルを読み込ませる
ログインすると、ファイルのアップロード画面に遷移しますので、音声ファイルを読み込ませます。
- 「参照」ボタンをクリックして、用意した音声ファイルを選択します。
- ファイルの選択ができたら、「Transcribe」ボタンをクリックします。
- 処理が完了すると、自動的にページが更新されて文字起こし結果が表示されます。
- 結果表示後、「Download transcript」ボタンをクリックすると文字起こし結果をvtt形式でダウンロードできます。
Whisperを使って文字起こしをするメリット
Whisperを使って文字起こしをすると、どのようなメリットがあるのでしょうか。
音声認識の精度が高い
Whisperは約68万時間にもおよぶ大量のデータをインターネットから収集して学習しており、音声認識の精度が高いのが特徴です。日本語の文字起こしにおいても単語誤り率(WER/Word Error Rate)は5.3%と、利用できる言語の中でも6位の順位となっており、多言語と比べても高い精度で文字起こしができることが分かります。
音声認識の精度が高いと、AIで文字起こししたテキストを人力で修正する手間が減り、より効率的に文字起こしを行うことができます。
無料もしくは安価で利用できる
Whisperは今回ご紹介した方法のように、Google Colaboratoryで利用するかGitHubにあるオープンソースモデルを使えば、無料で使えます。API経由で利用すると有料になりますが、料金は1分ごとに0.006ドル(約50~60円)であり、比較的安価です。
一般的な文字起こしツールは、無料プランだと制限が設けられていることが多く、コストがかかってしまいがちです。無料もしくは安価で使える点は、Whisperで文字起こしをする大きなメリットだと言えるでしょう。
Whisperを使って文字起こしをするデメリット
Whisperを使うと無料もしくは安価で高精度な文字起こしができますが、一方でデメリットも存在します。
実行環境の構築が必要
Whisperを利用するには、実行環境を構築する必要があります。プログラミング言語に慣れていない人にとっては難しく感じることや、使いたいときにすぐ使えるわけではなく準備が必要であることについては、デメリットだと言えるでしょう。
セキュリティ上の課題がある
Whisperを利用する際は、セキュリティ上の課題にも目を向けなければなりません。アップロードされたデータは削除ができず、AIの学習に使用されることもあります。社内の会議音声などをアップロードする場合は、機密情報流出のリスクがありますので注意が必要です。
Whisper以外の文字起こしツール
Whisperを利用した文字起こしは、無料もしくは安価で高精度な文字起こしができるためメリットも大きいですが、デメリットや課題もあるのが現状です。利用する際は、セキュリティ面でも注意しなければなりません。
最後に、Whisper以外で手軽に使える文字起こしツールをいくつかご紹介します。Whisperを使うのはハードルが高いと感じる方は、こちらのツールの利用も検討してみてください。
AIGIJIROKU
AI GIJIROKUは議事録作成向けのAI文字起こしツールです。AIが99.8%の高精度で音声認識を行うため、手直しの手間を削減できます。Zoomと連携すると発言をリアルタイムに字幕表示でき、会議終わりにすぐ議事録を作成できるのが特徴です。約30か国語に対応したリアルタイム翻訳機能もあり、外国人メンバーともコミュニケーションがとりやすくなります。
Rimo Voice
Rimo Voiceは日本語に特化した文字起こしツールです。AIによる高精度な音声認識が可能で、ノイズ除去機能やフィラー除去機能(「えー」「あのー」といった意味のない言葉を自動で削除)もあり、文字起こしの手間を削減できます。60分まで利用できる無料トライアルもありますので、文字起こしツールを試しに使ってみたい方にもぴったりです。
Notta
Nottaは、98.86%以上の高精度の音声認識と、AI要約機能を持つ文字起こしツールです。文字起こしは104言語に対応しており、そのうち41言語はリアルタイム翻訳も可能となっています。累計ユーザーは200万人以上、導入企業は700社以上にものぼります。
スマート書記
スマート書記は、端末1台で録音から文字起こしをすべて実現するツールです。すべてのWeb会議ツールに対応しており、ツールと連携しなくても録音が可能となっています。自動要約や要点の抽出、議事録の清書、サマリーの共有まで1つのツールで完結できるのが特徴の文字起こしツールです。
まとめ
OpenAIが提供するWhisperは、高精度な文字起こしが可能な音声認識AIです。利用するには実行環境の構築が必要ですが、慣れれば高精度な文字起こしツールを無料もしくは安価で使えるため、議事録作成やインタビュー記事の執筆などに大いに役立つでしょう。
ただし、デメリットやセキュリティ上の課題などもあるため、利用を検討する際は注意が必要です。Whisper以外にも便利な文字起こしツールはありますので、メリット・デメリットを把握した上で、目的に合った文字起こしツールを選びましょう。
AI GIJIROKU ブログ編集部です。議事録や、会議、音声を中心に生産性を向上するためのブログを執筆しています。