教師データの重要性

はじめに

昨今AI(ディープラーニング・機械学習)の活用が言われていますが、実証実験ではなく実際にビジネスとして結果を出せることが重要です。では身近でどれほどの実用的なAIがあるか実感できるでしょうか?おそらく答えはでは無いでしょうか? 実際にAIが実用的に使われるにはAIのエンジンはもちろんのことですが、学習し実用として結果を出すためには、良質で大量な教師データが重要です。実用的なAIがまだ思ったより少ないのは教師データの準備の難しさにも起因していると考えられます。 今回は教師データについて述べてみます。

教師データとは

まずAIの成果で非常に有名になったのは2012年の「Googleの猫(※1)」です。大量の猫の画像を学習データとしてディープラーニングに読み込ませたものですが、画像の枚数は約1,000万枚だったと言われています。この大量の学習データによってAIは猫を画像認識できるようになりました。理論的には以前からこのようなことが可能と言われていたわけですが、GPUの処理性能の向上と、画像のデジタル化が進み、学習用の大量の画像データが準備できるようになったので実現化できたと言われています。 (※1)衝撃!グーグルの猫論文~3日間、1000万枚の画像を見続けた結果 https://www.milive-plus.net/gakumon161001/12/ この頃からAIはさらに飛躍的に進化する、と言われてきました。しかし実際には当初考えられていたほどのスピードではAIの開発は進んでいません。いくつか理由がありますが最も大きな理由は学習データの準備の困難さと、学習データの重要性に対する認識不足です。 「Googleの猫」の場合は教師なし学習でしたが、AIでより多くのケースを占める機械学習の場合は、教師あり学習データを使用します。この場合「入力情報」の意味づけが必要で、各入力情報に対するタグとして「ラベル付き情報」が必要になります。例えば自動運転のAIの開発を行う場合、教師データを読み込ませる際に、画像のデータに正確にその意味合いを持たせるタグを手作業で付けたデータセットが必要になります。同時にデータセットには品質も求められます。品質のよくない10万個データよりも、正確でクリーンなデータが1万個あることの方がAIの学習には必要です。これらのことからもAIの教師データは大量かつ品質のよいデータが必要とされます。 一般的にはAIの開発の工程では全体の約8割(※2)がこのデータセット作成に費やされると言われています。このことがAIの開発、実用化がを難しくしている大きな要因のひとつです。 (※2)8割がデータの前処理!データサイエンティストの仕事内容について https://lionbridge.ai/ja/articles/fujitsu-data-scientist-interview/ この教師データを効率的に準備しようとしている例を述べてみましょう。

教師データ取得のたのデータアライランス戦略他進め方例1~アノテーションサービサーとの協業~

アノテーションサービスは教師データ作成サービスです。例えば大量の画像にタグ付けを行います、画像であれば、画像内の物体の意味づけや領域抽出を手作業で行います。このサービスを様々な学習モデルに合わせた形で提供しているのがアノテーションサービサーです。 多くのアノテーションサービサーはオフショアーや人材派遣会社との連携を行ってアノテーションサービスを提供しており、既にアノテーションサービサーが多く存在します。一方でアノテーションサービサーは様々な教師データを集約し提供しますが、同時にAIによるデータ活用までは行っているところは今のところあまり見られません。 このサービサーとアライアンスを結び、データの集約とAIの開発を合わせてビジネスにするという戦略的アライアンスは想定されます。 アノテーションサービスの長所は、画像データのデータセット作成など、比較的単純ではありますが、非常に手間のかかる膨大なデータを専門のサービサーで準備できることです。短所としてはサービスに対しコストがかかってしまうところです。 アノテーションサービスは、比較的単純で量を要する画像データのデータセット作成などに向いており、代表的なものとして例えば自動運転に使用する景色の映像データへの活用、また花などの仕入で使用する大量の画像データへの活用などが見込まれます。

教師データ取得のためのデータアライランス戦略他進め方例2~リレーショナルデータベースの活用~

想定にはなりますがリレーショナルデータベースデータをAIの教師データとして活用する案です。レガシーで利用されてきたリレーショナルデータベースは非常に大量な正規化されたデータを持っています。なかにはエラーデータも紛れてはいますが、オープンなデータに比べると少なくともリレーショナルデータベースのデータとして認識されるようにかなり正確に入力されているデータです。このデータを取り出し、学習用のデータとして利用することはできないでしょうか? リレーショナルデータベースはこの過去30年以上に渡り、あらゆる基幹システムのデータベースに導入されており、非常に大量かつ多くの種類のデータがあると言ってよいでしょう。例えば販売や予約などのシステムにはビジネスとして非常に優良なデータが膨大に蓄積されており、データの使い方によっては、AIによる販売予測などのビジネスに直結する可能性があります。 例えばホテルの予約システム考えてみましょう。リレーショナルデータベースには顧客の予約履歴データがすべて入っています。顧客のビジネスを考えると機会の損失つまりキャンセルを予測し、ホテルの客室をいかに稼働率を上げるかということが重要です。どういった顧客がキャンセルする確率が高いのか?どういった顧客が多い場合にキャンセルが多いのか?それを予測することによりキャンセルする確率の高い顧客を把握でき、それに応じたビジネスができます。 AIではとかく画像系、音声系が注目されがちですが、こういった一見レガシーと思えるシステムにはまとまったデータが比較的クリーンな形で存在します。ただしこの場合でもデータセットの前処理の課題はもちろん残ります。それでも元々が意味の整理されたデータが高い品質でリレーショナルデータベースに格納されており、前処理の工数は減ると考えられます。 リレーショナルデータベース活用の長所としては、このように正規化された比較的正確で、ビジネスに直結する可能性のあるデータが非常に大量に存在するということです。教師データとしての利用が可能になれば、あらゆる業種でこのデータをAIに活用できる可能性が想定されます。 短所としてはリレーショナルデータベースのデータ構成を理解しているのはシステムエンジニアにほぼ限られ、データをAIの教師データとしてのデータセットに変換できるスキルを持ったデータエンジニアが別に必要になるという点です。データベースのデータを教師用データに変換する人材の不足です リレーショナルデータベース活用はアノテーションの画像データとは異なり、正規化された基幹系システムのデータであり、例えば小売りでの需要予測や例にあるキャンセル予測など、かなり広範囲で活用できると考えられます。

まとめ

このように教師データの重要性とその解決案について具体的に述べてきました。一方で、この教師データの重要性にそもそも気づいているか、という課題があります。 2012年の「Googleの猫」のようなAIによるブレークスルーから現在に至るまで、AIに関連する人材の育成や、より扱いやすいツールなど様々なAIに関連する課題とそれを解決する方策も考えられてきました。脚光を浴びているPythonの技術者やデータサイエンティストは重要で必要な人材であり、Google TensorflowMicrosoft Azureなどは開発に効果的なツールであり、マーケットの拡大に貢献してきました。人材やツールの課題はこれまでのレガシー系や新技術開発と同様に分かりやすい課題であり、今まではこれらを解決することによって一定の進展をしてきました。ただAIがビジネスとしてさらに活用されていくには、これらに加えて教師データを準備することが重要なのですが、この観点は今までにはなかったものであり、企業が一般的にこの重要性を認識としているとはまだ言えない状況です。 この教師データの重要性が、人材及びツールの充実とともにさらに認識されるようになるとAIビジネスが飛躍的に進むと考えられます。今後はここで述べた解決案の事例などが拡がり、教師データの重要性がさらに一般的になり、企業の認識と投資意欲が高まることなどが望まれます。

Author Profile

株式会社Crosstab 代表取締役 漆畑充
株式会社Crosstab 代表取締役 漆畑充
2007年より金融機関向けデータ分析業務に従事。与信及びカードローンのマーケテイングに関する数理モデルを作成。その後大手ネット広告会社にてアドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言/コンサルティング業務を行う。統計モデルの作成及び特にビジネスアウトプットを重視した分析が得意領域である。統計検定1級。
技術・研究のこと:qiita
その他の個人的興味:note


お問い合わせは株式会社Crosstabまでお願いいたします
2007年より金融機関向けデータ分析業務に従事。与信及びカードローンのマーケテイングに関する数理モデルを作成。その後大手ネット広告会社にてアドテクノロジーに関するデータ解析を行う。またクライアントに対してデータ分析支援及び提言/コンサルティング業務を行う。統計モデルの作成及び特にビジネスアウトプットを重視した分析が得意領域である。統計検定1級。 技術・研究のこと:qiita その他の個人的興味:note お問い合わせは株式会社Crosstabまでお願いいたします
PHP Code Snippets Powered By : XYZScripts.com