AI開発におけるアノテーション業務とは?
アノテーションとは、AIシステム開発において、学習データにラベル付けを行う作業を指します。例えば、画像、テキスト、音声などのデータに対し、その内容を説明する情報(ラベル)を付与する作業です。この作業により、AI機械学習に必要な「教師データ」が生成されます。

以下の作業例のように、画像認識のAIを開発する際には、膨大な数の画像に対して、それぞれの画像に何が映っているのかを詳細にラベル付けする必要があります。その他では、テキストデータのアノテーションの場合、文章の感情分析や主題分類のために、テキストにラベルを付ける作業が求められます。

これら教師データの質と量はAI性能に直結するため、アノテーションとは、AI開発において非常に重要なプロセスとなります。
アノテーション業務を行う上で直面する課題
AI開発において有効な機会学習を行うためには、アノテーションによる「正確」かつ「大量」の教師データ作成が必要になります。ここで直面する主な課題として、まず、短期間での人材・作業設備の大量確保が挙げられます。また、作成された教師データの品質管理も重要です。これらの課題を解決するには、コストや労力がかかり、さらにマネジメント工数も増加します。そのため、開発規模によってはアノテーション業務の負荷が高くなることがあります。
昨今のAI開発競争に対応するためには、大量の教師データを短期間で用意するケースが多く、場合によっては、数十人から数百人規模のアノテーション人材が必要となります。当社の事例でも、50名~100名のチームが数か月かけて作業する案件もあり、データ納期が短い場合はさらに多くの人手が求められます。また、PCやデスク、ネットワークなどの設備や作業スペース確保の問題も発生し、これらを適切に整備することが重要です。
なお、アノテーションの人員確保には、社内リソースの活用や外部からの採用といった方法がありますが、システム開発(エンジニア分野)とアノテーション作業では求められるスキルセットが異なるため、適切な方法で人材を集めないと、AI開発全体で時間やコストの無駄が生じる可能性がある点にも注意が必要です。
多人数でのアノテーション作業では、個人の感覚に頼るとラベル付け判断がぶれやすく、教師データの品質が低下するリスクがあります。そのため、作業における統一された判断基準を維持するためには、業務の標準化が不可欠です。業務標準化とは、作業者全員が同じ品質の成果を出せる状態を作り出すことを指します。
例えば、作業ガイドラインの作成・整備です。判断基準書や作業手順書を作成し、これを基に作業を進めることで、全員が同じ基準で作業を行うことができます。また、作業が進行するなかで、仕様変更が発生する場合には、その内容を迅速にキャッチアップし、ドキュメントを更新しながら、スタッフ全員に周知することも重要です。
また、アノテーション作業には注意深さや根気強さが必要であり、学習データや作業内容に関する知識も求められます。その点を考慮しながら、作業者の適性を見極め、必要な研修や教育を行うことも重要です。サンプリング評価を行い、正確なタグ付けができているか、スタッフ間での判断のばらつきがないかを確認するなど、マネジメント体制の確立も必要です。このような体制を整えることで、品質と生産性を確保し、効果的なアノテーション作業を実現します。

アノテーション遂行への課題解決・アウトソーシングの利点と事例
前述のアノテーション業務における課題を解決する方法の一つとして、アウトソーシング会社(サービス)の利用があります。
アウトソーシングサービスを利用することで、プロフェッショナルな知識と豊富な経験を持つスタッフがアノテーション作業を担当し、正確で質の高い教師データを提供してくれます。また、大規模なプロジェクトでも、必要な作業リソースを迅速に確保することができます。さらに、最新の技術やトレンドを取り入れることができるため、常に最適な方法でアウトプットを得ることが可能です。
コストの削減 | 必要な量を、必要なタイミングで提供、コスト最小化 |
マネジメント負荷軽減 | 基準書準備、事前研修、仕様変更へも迅速に対応 |
教師データ品質の安定化 | 標準化ノウハウ、作業適性の高いスタッフ、評価体制 |
事例1) OCRの精度向上のための教師データ作成
インターネット事業会社様のプロジェクトにおいて、領収証・書籍全般・申請書類・飲食店メニュー・チラシ等の多岐にわたる教師データの作成を実施しました。 作成したデータは合計14,000件となり、手書きのテキストであってもOCR精度が96%以上へ向上いたしました。
事例2)AIスピーカーの音声アノテーション
インターネット事業会社様のプロジェクトでは、AIスピーカーの音声認識精度向上を目的に、毎月54,000件の音声アノテーションを実施しました。会話内容の正確な文字起こしや重複音声の判定を行い、品質管理を徹底して進めました。これにより、音声認識システムの精度が大幅に向上し、ユーザー体験の向上に貢献しました。
アノテーション自動化ツール利活用へのポイント
昨今、アノテーション業務の効率化と精度向上のために、自動化ツールの導入検討をする企業もみられます。例えば、画像認識ではオブジェクト検出モデルを使用して自動的にラベル付けが可能です。これにより、大量の学習データを短時間で処理できます。
しかし、自動化ツールには限界があります。データの多様性が高い場合や複雑なラベル付けが必要な場合、手作業のアノテーションが依然として重要です。また、ツールが誤ったラベルを付けるリスクもあり、品質管理面の確立も必要です。
自動化ツールには、作業を補佐するものや管理タスクを整理する効率化ツールと、自動でラベル付けを行うなどの自動化ツールがあります。しかし、完全に自動化されたツールはまだ少なく、多くは半自動化の形態です。自動化ツール導入の際には、仕様変更への対応や品質評価、修正のリスクを考慮し、人の介在が必要なことを認識しておくべきです。
そのため、自動化ツールはアノテーション業務の効率化に有効ですが、万能ではありません。手作業との併用が効果的であり、適切なバランスを取ることが重要です。導入する際には、自社のニーズに合ったツールを選定し、計画を立てることが成功の鍵となります。
まとめ
アノテーション作業は、手順自体は単純でも、数十万件単位のデータ処理や判断基準の作成、人員や品質管理など多くの課題が伴います。そこでは、コストの無駄を抑えつつ、迅速かつ精度の高い、品質の安定した教師データの作成が可能なアウトソーシングが有効な手段です。今後、アノテーション業務の効率化と高度化がAI開発でますます重要となる中、技術の進化に対応しながら適切な手法やビジネス戦略を選ぶことが成功の鍵です。
なお、PTWでは「AIアノテーション」サービスを展開しております

【 PTWの強み 】
◇高い人材確保力
数百名の自社拠点や在宅ワーカーを活用することで、短期間で大量の人材と作業環境が準備可能
◇安定した品質マネジメント体制
20年のBPO事業で培った業務標準化ノウハウを研修や品質管理へ活用。
大規模かつ短納期の依頼にも高い品質の教師データを提供。