前回は今後のデータ・サイエンテスト/アナリストは今後どうするべきかについて以下の観点

  • オールドタイプが得意としてきたプリアナリティクス及びポストアナリティクスに強みを持つこと、すなわち人間であるからできる事を大事にする
  • 機械及び機械学習エンジニアとは「競争」ではなく「共創」する。但し彼らの我田引水には気を付ける
  • データ分析実務のみならず周辺領域を考慮した最適化を目標とすること
  • ドメイン/インダストリーで強みを持つこと

が有ることを述べ、一番上の項目だけ解説しました。今回は残りです。

機械/エンジニアとの共創

paypalの創業者であるピーターティールは「競争とは負け犬のすることである」と述べたそうです。これはデータ・アナリストやサイエンティストも同じです。昨今多くのITエンジニアにとって機械学習は身近なものになりつつあり、機械学習エンジニアという職種での採用も増えてきました。これに対しデータ・アナリストは同じ領域で彼らと競争すべきではありません。分析の方向性の設定やモデルの策定、特徴量の定義などアナリストであるから得意とする領域でプレゼンスを発揮するほうが双方にとってメリットが大きいはずです。この理由はまず第1にアナリストがエンジニア領域を勉強するのは相当の労力を要します(逆も然りです)。そのためどちらも手を付けるとなると資源が分散され虻蜂取らずとなってしまう恐れがあります。第2に人材の多様性が失われてしまい、双方の得意を活かした共創的な価値が生み出せなくなります。アナリストは基本的にエンジニアよりビジネスに聡い事が多いです。理想的なモデルを作るために必要なデータと実際に現場から取得できるデータの乖離から折衝案を考えエンジニアに提供するなどして解決を図ります。他方アナリストの拙いコーディングでは負荷が大きくなり実装が不可能なモデルも、エンジニアが実装を担当することにより可能となる場合もあります。このようにエンジニアの存在はアナリストから非機能要件を含む実装の苦役から解放する役割があるのです。しかし競争はある種の均一化を促進しその結果、上記のような相補性を喪失させ共創の価値を失わせてしまうのです。

一方で我田引水である機械学習エンジニアの文脈には乗らないように気を付けます。技術ありき機能ありきのような目的と手段の倒置が起こらないように監視する必要もあります。

次に機械との共創について考えます。先日GoogleのGCPのセミナーに行ってきましたが機械学習のモデル自体のアルゴリズムを発明することはおそらく検索エンジンの再発明と同じくらい無意味な行為になるでしょう。特に非構造化データは前回も述べましたがGoogleのGCPやMicrosoftのAZUREなどのフレームワークを「使う」能力が必要になると思います。今までもこれからでもそうですがデータ・アナリストは車輪の再発明に時間をさいてはいけないのです。さらにモデル自体の精度はboostingの手法を用いることで誰でも比較的簡単に実務に耐えうる精度のモデルができるようになりました。kaggleのあるコンペにて筆者がランダムフォレストで作成したモデルの精度は0.85程度でしたが全く同じ変数をLightgbmというboostingのモデルに私用したときそのスコアは0.896まで上がりました(全部の変数を投入すると0.899まであがるとkernelに記載がある)。TOP集団のスコアが0.902-904であるためkaggleはこの0.00以下の少数の精度の差が勝敗を分けます。ところがビジネスにおいてこの0.00以下の精度差はどれほどのインパクトなのでしょうか?モデル改善と精度の関係は時間経過において対数関数に従い逓減します。この精度と時間のトレードオフも考慮しつつベターを選んでいくことがデータ・アナリストの仕事ではないでしょうか?

周辺領域を考慮した最適化

より新しい役割も期待されます。データ分析を含む周辺領域にも課題の解決策を探索するという姿勢が必要になると考えます。例えばモデル精度がどれくらい必要かは悩みどころでしょう。仮に(ありえない事を仮定しているが分かりやすくするためである)ある種のガン検診を考えてみましょう。ガンは早期発見により完治できる時代だからこそ偽陽性率をある程度低くしつつ偽陰性率を0にする必要があります。これには優れた腫瘍マーカーが必要ですが、仮に臨床検査のコストや受検者負担(侵襲や入院の要否)が0であるならば全員に臨床検査を受けさせれば良いわけで、スクリーニングや優れた腫瘍マーカーは不要です。また治療コストが低く患者負担(同様に治療に係る入院の要否や手術等の侵襲)が少なければ臨床検査無しにスクリーニングの段階で確定診断し治療を開始すればよいのです。実際に治療・処置コストがガンと比較して低いインフルエンザは簡易検査(鼻の粘膜を綿棒でどうにかするやつ)と流行の定点観測等や診察をもとに診断しリレンザ・タミフルを処方するという運用がなされています(耐性ウィルスの問題があるが、専門外のため私からその運用の妥当性をここで論じることはできない)。このように偽陽性や偽陰性の社会許容度を考慮した上でモデルの精度を上げるためのコストとモデルの運用に係る社会的コストを天秤にかけた意思決定をしていくのは今後のデータ・アナリストの役割ではないかと思います。

(参考)この話は正確には決定理論といわれる分野であり詳細はPRML.P40及びMachine Learning_ A Probabilistic Perspective (Murphy)に詳しいhttps://washio-jibika.com/blog/%E3%82%A4%E3%83%B3%E3%83%95%E3%83%AB%E3%82%A8%E3%83%B3%E3%82%B6%E6%A4%9C%E6%9F%BB%E3%81%AE%E6%B4%BB%E7%94%A8%E6%B3%95/

ドメイン/インダストリーで強みを持つこと

最後に対象事業領域すなわちドメイン に対する強みを持つ必要があります。例えば機械学習のモデル精度の指標には 再現率 と 適合率 という指標がありますがこの指標はトレードオフ(すなわち片方を上昇させるともう一方は下降する)の関係にあります。この指標のどちらを優先させるかは解決すべき問題によって異なり、この時ドメインの知識がないと適切な評価ができないということになります。例えばガン検診のスクリーニング検査に置いて再現率が100%でないとガン患者を健康と判断してしまいます。他方広告のようにある予算内でリーチする人数の上限が決まっている場合ターゲット推定モデルの再現率は広告予算の上限に依存するため指標としてはあまり有効ではありません。このようにドメインに対する常識とも言える知識は機械学習モデルを評価するためには不可欠なのです。

もう一つ広告で例をあげましょう。広告は近年インターネット広告を中心に顧客のターゲティングを行う事が常態化しています。このモチベーションは言うまでもなく広告の受け手をターゲットに絞る事で広告効果の最大化を目指すのが目的です。その背景には商品のターゲット層は異なるという前提があります。ところで日用品などはどうでしょうか?日用品はターゲットの広い商品カテゴリーですので果たしてターゲットを絞る事が有効なのでしょうか?機械学習の有効性が立証されると猫も杓子も同じ様にターゲティングできるのではないかと考えがちですがある程度の大きさのターゲットに対しては何も深く考えずTV の様なマスプロモーションで十分な場合があるのです。データ・アナリストはこの十分なターゲットかどうかを判断し時にはデータ分析以外の代替案を提案するのも重要な仕事となるでしょう。

と長々4回にも渡った再考とto beでしたが、自省も込めての事でした。