TOMORUBA

事業を活性化させる情報を共有する
コミュニティに参加しませんか?

AUBA
  1. Tomorubaトップ
  2. ブログ
  3. 自動データラベリングが未来の技術になるのはなぜ?
自動データラベリングが未来の技術になるのはなぜ?

自動データラベリングが未来の技術になるのはなぜ?

  • 5029
1人がチェック!
山下秋子

自動データラベリングは、現在絶えず言及されている新機能であり、時間とリソースを要するカジュアルなマニュアルアノテーションの解決策とみなされています。1つのデータセットにアノテーションを施すのに何時間もかかるマニュアルデータラベリング(通称:マニュアルデータアノテーション)に対し、オートラベリング技術は、AIそのものを活用することで、よりシンプルに、より速く、より高度にデータを処理する方法を提案しています。

 

1. 通常のデータセットの扱い方

データラベリングの最も一般的でシンプルなアプローチは、もちろん完全な手動によるものです。人間のユーザーは、一連の生ラベル付けされていないデータ(画像やビデオなど)を提示され、一連のルールに基づいてラベル付けを行うことになります。例えば、画像データを処理する場合、分類タグ、バウンディングボックス、ポリゴン分割、キーポイントなどが代表的なアノテーションの種類です。

 

自動データラベリング ・セグメンテーションのデータラベリング

 

最も簡単で安価なアノテーションである分類タグは、わずか数秒で済むかもしれませんが、細かいポリゴンのセグメンテーションは、オブジェクトの各インスタンスごとに数分かかる可能性があります。

AIオートメーションがデータラベリング時間に与える影響を計算するため、ユーザーがオブジェクトの周囲にバウンディングボックスを描き、与えられたリストからオブジェクトクラスを選択するのに10秒かかると仮定してみましょう。これは私たちの経験的な証拠に裏付けられた観察可能な仮定です。

今回のケースでは、10万枚の画像と1枚あたり5個のオブジェクトからなる典型的なデータセットの場合、ラベリングには約1,500工数がかかり、これはデータラベリングだけで約1万ドルを費やすことに相当します。

また、ラベリングされたデータを手作業で確認するための品質管理のレイヤーを追加することが納品までの時間も長くなります。訓練されたユーザーでさえ、各バウンディングボックスの注釈をチェックするのに約1秒かかるため、ラベリングのコストが約10%増加します。

ワークフローの中には、コンセンサスベースの品質管理を採用する場合があります。これは、複数のユーザーが同じデータに注釈をつけ、その結果を統合/比較して品質管理を行うものです。コンセンサスベースのワークフローでは、コンセンサスを得るために重複した作業を行うユーザーの数に比例して、かかる時間と費用が大きくなります。簡単に言えば、3人のユーザーが同じ画像に3回ラベル付けをした場合、3回分のアノテーションの費用が必要になるということです。

ここで強調しておきたいのは、データラベリングにおいて最もコストのかかるのは下記の2つのステップです。

  • データラベリング自体
  • 品質管理のためのレビューと検証作業

したがって、オートラベル技術の最大の目的は、データラベリングと検証の両方にかかる時間を短縮することです。

ありがたいことに、AIと機械学習の進歩により、Auto-Label技術は大きく進歩しました。しかし、すべてのAuto-Labelテクノロジーが同じように作られているわけではなく、多くの場合、AIを使用する素朴な試みは、AIによって引き起こされたエラーを修正するために、より多くの人間の入力を必要とすることになります。そのため、選択したAIがデータのワークストリーム全体にどのような影響を与えるかを極めて慎重に判断しなければなりません。

ここでは、Superb AIのAuto-Labelとは一体何なのか、この技術の背景にある目的、そしてSuperb AIがこの分野でどのような進歩を遂げているのかをご紹介します。

 

2. オートラベリングのメリット

オートラベリングという言葉は、この分野では非常に新しい言葉ですが、それを実装し実現するための技術的進歩は高速で進んでおり、現在では多くのツールが市場に出回っています。では、データラベリングとはどのようなもので、どのようなメリットがあるのでしょうか。

2.1. オートラベリングとは?

 

オートラベリングとは?

 

オートラベリングとは、人工知能(AI)を応用してデータセットのエンリッチ、アノテーション、ラベリングを行うデータアノテーションツールに搭載されている機能です。この機能を備えたツールは、機械学習のためのデータラベリングにかかる時間とコストを削減するために、人間の作業を増強します。

ほとんどのツールでは、事前にアノテーションされたデータをツールに読み込むことができます。プラットフォームに進化しているより高度なツール(例えば、ツールとソフトウェア開発キット(SDK)を組み合わせたもの)では、AIを活用したり、独自のアルゴリズムをツールに持ち込んだりして、データをオートラベリングすることで、データエンリッチメントのプロセスを改善することができます。

また、作業者がアノテーションを検証できるように、アノテーションを提案する予測モデルを提供するツールもあります。また、内蔵されたニューラルネットワークを活用して、アノテーションを行うたびに学習する機能もあります。これらの機能はいずれも、機械学習チームの時間とリソースを節約し、データアノテーションのワークフローに大きな影響を与えるでしょう。

2.2. オートラベリングの優れたメリット

機械学習のために画像をアノテーションするツールを使用している組織との仕事の中で、オートラベリングがデータアノテーションのワークフローに適用された場合、2つの方法で役に立つことがわかりました。

データセットの一部または全部に事前にアノテーションを施します。自動化された後、作業者はアノテーションを確認、修正、完成させます。自動化ですべてのアノテーションを行うことはできず、例外やエッジケースが発生します。完璧とは言えませんので、必要に応じて人がレビューや修正を行うことを計画しなければなりません。

人に送る仕事の量を減らす。自動ラベリングモデルは、ユースケースやタスクの難易度などに基づいて信頼度を割り当てることができます。また、データセットにアノテーションを付与し、信頼度の低いアノテーションをレビューや修正のために担当者に送ります。

自動化機能を備えたツールを使用するチームと、同じデータに手動でアノテーションを行うチームに分かれて、時間をかけた実験を行いました。自動ラベリングが低品質な結果をもたらし、アノテーション作業に要する時間が長くなるケースもありました。一方で、自動ラベリングが有用な出発点となり、作業時間が短縮されたこともあります。

 

オートデータラベリング: メタデータ

 

ある画像のアノテーション実験では、自動ラベリングに人力によるレビューと改善を組み合わせることで、100%手作業によるラベリングプロセスよりも10%速くなりました。この時間短縮は、自動化が時間をかけて学習されるにつれて、40%から50%の速度に増加しました。

また、車両については5ピクセル以上の誤差があり、カメラから最も離れた物体を見逃していました。この画像では、自動ラベリング機能により、ゴミ箱に人のタグが付けられているのがわかります。アノテーション前の予測は既存のモデルに基づいており、オートラベリングのミスはそれらのモデルの精度を反映していることを覚えておく必要があります。

データアノテーションツールには、人工知能を使ってデータにラベルを付けるオートラベリングとも呼ばれる自動化機能を搭載することができ、作業員はそのラベルを確認したり修正したりすることで、作業時間を短縮することができます。

道路標識のスクリーンショットでは、自動ラベル付けにより、ゴミ箱を囲むバウンディングボックスで画像を豊かにすることができました。これは間違いでした。その物体を人としてラベル付けしてしまったのです。オートラベリングは完璧ではありませんが、データラベラーのチームにとっては、出発点として役立ち、作業時間を短縮することができます。

 

オートデータラベリング:データが鍵となる

 

プレアノテーションに適したタスクもあります。例えば、私たちの実験の例で言えば、プレアノテーションを使って画像にラベル付け、データラベラーのチームがラベルやバウンディングボックスのサイズを変更するか削除するかを判断することができます。このラベリング時間の短縮は、ピクセルレベルのセグメンテーションで画像にアノテーションを施す必要があるチームにとって有益です。

オートラベリングを適用するには、創造性が必要だということです。オートラベリングをうまく活用しているお客様は、必要に応じて試行錯誤を繰り返すことを厭わないことがわかりました。オートラベリングは、AI技術、特に機械学習をより良く理解するための一つの突破であり、この新しい用語にはまだ多くの発見があります。

山下秋子Lotus TS 株式会社

ロータス・テクノロジー・サービス株式会社(Lotus TS)はロータスグループの子会社であり、ベトナムの注目されるITアウトソーシング会社です。 優れたITスキル、特に競争力のある人件費を備えたIT人材の可能性を見出したため、2016年にベトナム初の品質保証会社として設立されました。その後、 2017年にLotusTsを設立し、高品質のエンド・ツー・エンドのITサービスを提供しています。

品質重視、セキュリティ システム、および人事を重視することで、私たちはクライアントの経験に対する能力と献身を証明することに成功し、Sao Khue賞を受賞しました。そして、アメリカ・日本・韓国などの要求の厳しい市場で一流のサービスという評価を得ました。

https://lotus-ts.com/jp/

Lotus TS 株式会社

新規事業創出・オープンイノベーションを実践するならAUBA(アウバ)

AUBA

eiicon companyの保有する日本最大級のオープンイノベーションプラットフォーム「AUBA(アウバ)」では、オープンイノベーション支援のプロフェッショナルが最適なプランをご提案します。

チェックする場合はログインしてください

コメント1件

  • 山下秋子

    山下秋子

    • Lotus TS 株式会社
    0いいね
    チェックしました

おすすめブログ

  • 【感性AI技術紹介】テキストデータからパーソナリティを推定

    ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

    鈴木希望

    3年前

  • スイス AI 技術とオープンイノベーションがもたらす未来

    オープンイノベーションをもっと身近に効率的に。そのパートナーと成り得る国は、スイスかもしれません。スイスにはAI(人工知能)分野における欧州屈指の研究施設が存在し、日本企業の参加に期待を寄せています。日本とスイスの先端技術の融合で、AI分野の新たな一時代を築きませんか。スイス連邦工 科大学チューリヒ(ETH)とローザンヌ(EPFL)の協力により、企業と学術機関の協業事例やオープンイノベーション戦略を紹介する機会を設けました。日本企業によるスイスでのオープンイノベーション経験談もご紹介いたします。コロナ禍で物理的な移動が制限されるなか、見事にオープンイノベーション参加を実現した日本企業による講演は必見です。ぜひご参加ください。オンラインセミナー「スイス AI 技術とオープンイノベーションがもたらす未来」の詳細はこちら!

    松田 俊宏

    2年前

  • AI技術を用いたデータ活用に関する事業のご紹介~DXの時代に備えたソフトウェア開発~

    はじめまして。セカンドセレクションの野崎です。まだ入社2年目ですがデータ活用テクノロジー、特にAI技術の機械学習に取り組んでいます。今回は弊社で取り組みを開始したDX事業領域の中で「データ活用の取り組み方」をご紹介していきたいと思います。目次データ活用ソリューションとは弊社が行う4つのステップ本質的な課題設定「記録」のデータ化機械学習による情報抽出情報による課題解決弊社の強みデータ活用がDXの鍵技術障壁の低下データ化しても使えないまとめデータ活用ソリューションとはまずは、コンセプトをご覧ください。弊社が行うデータ活用は、「記録から価値へ」と「寄り添い」をテーマに掲げています。このテーマは会社に埋もれている記録を利益に直結する情報に変え、お客様と一緒に寄り添いながら有効な価値を見つけていくという意味です。 企業様がデータ活用を進めようと思った時に良くお聞きする課題を一言で言うと、「データ活用により企業の価値を上げていきたいが、自社にはデータがない」です。 そのような企業様の課題を前提に「弊社のデータ活用ソリューション」をまずご説明致します。弊社が行う4つのステップ1.お客様との十分なヒアリングを通じて、解決した

    井村喜洋

    2年前