「アノテーション」という言葉の意味をご存知でしょうか。
AIサービスを開発する際には、教師データの存在が欠かせません。たとえば「この画像は◯◯である」「このテキストは□□を意味する」など、AIがデータの意味を理解するためには、人間によるチューニング(情報提供)が必要になります。アノテーションとは、このような「データへの意味付け」には欠かせないプロセスです。
とくに昨今では「AIチャット」への注目が集まっていますが、このようなAIサービスを理解するためには、その開発プロセスから理解していくことが重要です。本記事を参考に、ぜひアノテーションに対する理解を深めてみてください。
目次
アノテーションとは
アノテーション(annotation)とは、日本語で「注釈」という意味を持つ言葉です。とくに機械学習の分野では、画像やテキストなどのデータに対してタグ付けを行う作業のことを意味します。また、Javaなどのプログラミングの分野では、エンジニアがコードを記述する際に「注釈」の意味で、アノテーションが使われることがあります。
アノテーションの役割
本記事では「アノテーション」という言葉がよく用いられる、AI開発の分野での説明を中心に行います。
一般的にAIサービスを開発する際には、下記の手順で取り組みます。
- データ収集
- アノテーション
- 学習
- 評価
- 運用
AIは学習したデータをもとにアウトプットを出力します。そのため、事前の学習に必要なデータ(教師データ)の精度が高ければ高いほど、アウトプットの質が向上するのです。つまり、アノテーションは機械学習に必要となるデータ(教師データ)を作成するためには、欠かせないプロセスとなります。
たとえば画像認識のAIサービスを開発する場合には、カメラに映った物体を正確に識別するために、位置・大きさ・色・形などの正解となる情報を事前にアノテーションする必要があります。
アノテーションの種類
アノテーションを行うデータとしては、主に下記の3つが挙げられます。
- テキスト
- 音声
- 画像や動画
テキスト
テキストデータに含まれる単語に対して品詞情報を付与することで、その単語が「名詞なのか」「動詞なのか」といった品詞情報を識別することができます。また、文章の構造情報を付与することで「主語なのか」「述語なのか」といった文章構造を解析することが可能になります。
その他にも、特定の単語やフレーズに対してタグ付けをすることで、AIが「その単語やフレーズがどのような意味を持つのか」を判断できるようになります。たとえば商品レビューのテキストデータをもとに、そのレビューが「ポジティブなものか」もしくは「ネガティブなものか」を解析します。
このようなテキストデータのアノテーションを活用した事例が、チャットボットです。チャットボットとは、簡単な質問に対する回答や予約の受付など、主にカスタマーサポートの現場で利用されているサービスです。事前に質問に対する回答データを用意するだけで、顧客とのコミュニケーションを自動化することができます。
チャットボットの回答精度を高めるためには、テキストに関する教師データが必要になります。ユーザーの発言に含まれる意図を認識したり、重要度を付与したりなどの場面で、アノテーションが有効的に活用されます。
音声
テキストデータと同じように、音声データに含まれる言葉の「品詞情報」や「文章構造」、そのほか発言者の声色から「年齢」「性別」「感動」などをタグ付けして分類をします。発言者によって話し方のパターンは無数に存在するため、AIに正確に学習をさせるためには、テキストデータよりも大量の教師データが必要になります。
このような音声データのアノテーションを活用した事例が、議事録作成ツールです。
議事録作成ツールとは、社内での会議や取引先との商談で議論された内容を、自動で議事録に変換して、関係者に共有できるツールのことです。Web会議ツールと連携をしてリアルタイムで文字起こしをしたり、音声データをアップロードして文字起こしをしたりなど、具体的な利用方法はツールによって異なりますが、時間のかかる議事録作成を簡略化することができます。
代表的な議事録作成ツールとしては「AI GIJIROKU」が挙げられます。ZoomやMicrosoft TeamsなどのWeb会議ツールと連携をするだけで、会議の内容を自動でテキストにできます。また、業界別の音声認識機能を搭載しており、金融・法律・医療・ITなどの専門用語を認識して、99.8%の精度で発言内容を保存することが可能です。30カ国以上の言語をリアルタイムで翻訳できるため、外国語を交えた会議にも活用できます。
画像や動画
画像や動画の分野では、アノテーションは主に下記の5種類に分類されます。
1.物体検出
➝ 画像や動画のなかにある物体に対してタグ付けを行うこと
2.領域抽出
➝ 画像や動画全体ではなく、ピクセル単位でタグ付けを行うこと
3.領域指定
➝ 画像や動画のなかにある物体の領域を指定して、タグ付けを行うこと
4.目印検出
➝ 主に顔認証で活用される手法で、目や口などの些細な動きから変化を検出すること
5.画像分類
➝ 画像や動画ごとにタグ付けを行い、分類をすること
たとえば①の物体検出の活用例としては、自動運転技術が挙げられます。車載カメラで撮影された動画のなかで、車・人・障害物などの物体を検出し、衝突を防ぐことが可能です。
また、⑤の画像分類では、たとえば「この画像は猫なのか、犬なのか」といった精査ができるようになります。具体的な活用事例としては、たとえば工場の不良品検出システムで導入されています。「正規品なのか」「不良品ではないか」といった識別が可能です。
AI時代には欠かせない「アノテーション」の今後
昨今注目を集める「AIチャット」を筆頭に、今後はAIサービスをビジネスの現場で活用する事例が増えてくると考えられます。しかし、AIサービスの普及には、学習材料となる教師データの存在が欠かせません。高品質なAIサービスを開発するためには、開発プロセスのなかで、とくにアノテーションの重要性がますます高まってくるといえるでしょう。
アノテーションを行う際には、基本的に手動での作業が伴います。AIが“人間と同じような判断基準”を搭載するためには、手作業による高品質な開発や管理が必要になります。そのため、教師データを作成するアノテーション業務の重要性が今後はますます高まると考えられます。AIの分野に長けた専門人材の登用や、業務支援サービスの活用が進んでいくでしょう。
まとめ
アノテーションとは、AIサービスの教師データを作成するときに欠かせない「タグ付け」作業のことを意味します。アノテーションを適切に行うことで、テキスト・音声・画像などのデータを正確に識別し、高品質なAIサービスを開発することに繋がります。
市場競争の激化や慢性的な人手不足の背景から、AIサービスの普及は今後ますます進むものだと考えられるでしょう。現在でも、たとえば議事録作成サービス「AI GIJIROKU」のような、業種業界別の専門用語を認識して、自動で議事録を作成できるサービスが徐々に普及してきています。
AI技術の発展からは、日々目が離せない状況です。引き続き動向に注目をして、積極的にサービスを取り入れていきましょう。
AI GIJIROKU ブログ編集部です。議事録や、会議、音声を中心に生産性を向上するためのブログを執筆しています。