データサイエンティストはミッションの違いから機械学習エンジニアとデータ・アナリストに分類することができるというお話を前々回にしました。そこで機械学習エンジニアはデータサイエンティストの多数派であり今後も増加していく一方、データ・アナリストは少数であり、それどころか今後ますます需要がなくなる懸念があることを述べました。それを受け今回はデータ・アナリストが今後生きていくために必要なデータ・アナリスト2.0の姿を提唱したいと思います。

ところでデータ・アナリストの定義を明確にすることは困難です。データサイエンティストを全体とした機械学習エンジニアの補集合では少し大きすぎる気もします。従って以下のような像を想定します。

  • 2012年以前よりデータ分析を生業としていた(エンジニアではなく本業で)
  •  SAS / SPSS を使用した経験がある
  • コンサルティングファーム/シンクタンクでデータ分析の仕事をしたことがある
  • 何故かアウトプットはパワーポイントの報告書だった
  •  ロジスティック回帰 、 決定木 それに K-means が大好き

つまり古いタイプのデータサイエンティストです。

今まで(2012年以前)のこのタイプの需要は小規模ながら一定数安定して存在していました。例えばデータ分析をビジネスに活用するという傾向は別に最近の話ではなく古くは1990年代よりあり、有名な「オムツとビール」の初出といわれるウォールストリートジャーナルの記事「Supercomputer Manage Holiday Stock」(*1)は1992年の記事です。それから2000年代には石原慎太郎氏(当時東京都知事)の肝いりであった新銀行東京は財務データを元にした スコアリングモデル を用いた融資を行っています。ご存知のように石原銀行は多額の不良債権を抱えたまま経営破綻に至りましたが(*2)とにかくデータ分析をビジネスに活用するという芽は当時からありました。一方でこのような試みは大企業や金融機関のように豊潤な予算を持つ企業でしか実行されていませんでした。理由は分析のソフトウェアが非常に高価(当時の分析ソフトウェアは SASSPSS )であったこと、それを使いこなせる人材が希少であったことが挙げられます。余談ですが現在でも人気のある R は統計モデルとしては優秀でしたがデータの加工に難があり(現在は tidyverse という優秀なパッケージがある)金融系の クオンツ を目指すような学生が研究室で S-PLUS (*3)の代替として使用しているような教育・研究用のソフトウェアという認識に留まっていました。

このように非常に小さいマーケットでしたが需要/供給ともに大きく変動することなく安定したニッチャーとしてのポジションを確立していました。

しかし2010年代に入り hadoop や Python による OSS を基盤としたビッグデータ解析のムーブメントが起こり彼らも例外なくその波に直面したのです。その時の反応はそれぞれで、留まるものもいれば今でいう GAFA に行き機械学習エンジニアとしてのキャリアをスタートさせるものもいました。つまり波に乗るもの呑まれるもの、そして抗うもの。何が正解かはその時は分かりませんでした。しかし私自身のそれから今日までの経験を通して分かってきたことは、古いタイプ(オールドタイプというと地球の引力に引かれた人々)の仕事は残念ながら一部若しくは全部が機械やニュータイプによって代替されるだろうということです。例えば非構造化データの特徴量の抽出はディープラーニングの独壇場です。さらにプロダクトに機械学習のモデルを組み込む場合、 CRISP-DM の様なプロセスを回す能力よりそれが自動で回るような仕組みを作ることのできるエンジニアリング能力が必要とされます。

この様な代替の脅威に対してどのように対処していくのかが本稿の肝です。そこで重要なポイントは以下です

  • オールドタイプが得意としてきたプリアナリティクス及びポストアナリティクスに強みを持つこと、すなわち人間であるからできる事を大事にする
  • 機械及び機械学習エンジニアとは「競争」ではなく「共創」する。但し彼らの我田引水には気を付ける
  • データ分析実務のみならず周辺領域を考慮した最適化を目標とすること
  • ドメイン/インダストリーで強みを持つこと

(*1 参考) googleで検索してもオリジナルが見つからない。IT都市伝説とも揶揄されているが初出が1992年と流説されていることから90年代よりデータをビジネスに活用する傾向があった根拠としても良いだろう

(*2 参考) 「東京都が税金1400億円をドブに捨てた新銀行東京、合併直後にシステム障害で大惨事」2018.05.17 https://biz-journal.jp/2018/05/post_23358_2.html

(*3 参考) S-PLUS https://ja.wikipedia.org/wiki/S-PLUS

人間であるからできる事

まず第一に企業が直面するプリアナリティクス段階での課題に対して一日の長があります。例えばデータの有効性評価、すなわちデューデリジェンスです。昨今 情報銀行 や データエクスチェンジ といったデータの売買を前提としたプラットフォームの台頭が著しく、データ購買の意思決定にデータ・アナリストの知見が役に立ちます。現場では実際にデータを購買したあとに糊代となるキーがないとか、キーはあったがマッチングする数が少なすぎて使い物にならないとかがあります。この様な事はデータから実際に分析作業に落とすまでのデータクレンジングの工程を理解しているものが購買の意思決定に加わっていれば避けることができます。

もう一つ、データが少ないもしくはデータに非常にバイアスのある領域でドメイン知識や顧客との協力を得ながらそれを補完することも人間だから可能な事です。例えば広告出稿の効果を定量化するということは未だ業界にとっては答えのない領域です。理由としてオフラインの出稿データが少ないという問題と 学習データ の運用上の特性でTVプロモーションの時期は必然繁忙期(ビールで言えば夏)と重複したり、TVとオフラインや屋外メディアを同時に出稿したりと効果の切り分けが困難という問題があるからです。(*4)。この様な問題に対し広告の A/B テストを行うような出稿計画を立てデータを取得していく必要がありますし、そのために顧客との協力が不可欠です。但しこれには相当な信頼が必要です。事業会社が果たして広告の検証のためにTV広告をやめたりそれだけ出稿したりできるでしょうか?。筆者も一度クライアントに似たような提案をしたことがありますが「事業会社である以上広告を打たない日を数か月続けるという意思決定は難しい」と言われたことがあります。人間が対峙した場合ですら信頼を得るのは難しいことから機械ではそれ以上に困難であることは疑問の余地はないはずです。

第二にポストアナリティクス段階での役割もあります。例えば実装したモデルの運用やモニタリングを随時行い、適宜修正及び助言をしていくなどです。先の新銀行東京の事例に関して興味深い考察があります(*5)。本文を読む気力がないためこの方のまとめを引用すると

「日本経済研究センターの研究によれば、この新銀行東京の動きをMoody’ s KMV社のモデル等により検証した結果は、貸出金利が高いのであれば、収益性はある程度高いことが確認され、他の検証では基本的にモデル自体の精度は決して低くないことも判明したとされています。」

さらに

「スコアリングモデルの失敗は、顧客から提出された財務諸表を安易に信じて使ってしまったということにある可能性が高いということです。」

ともあります。

これは スコアリングモデル をスクリーニングとして使用し、リッチな情報があればそれを優先した意思決定を行うというような運用をしていれば新銀行東京がこれだけの不良債権を抱えなかったのではないかと考えることができます。またこのモデルには 逆選択 (アドバースセレクション)を考慮したモデルではなかった可能性があります。 学習データ と異なり運用時の入力データにバイアスが生じることは多々有ることです。古い話ですが当時の日本金融新聞(だったかかな?すいません失念しました)にこの銀行にモデルを導入したベンダーの話が載っていたのを覚えていますが、ベンダーは再三運用に関してモニタリングが必要であることを提言していたそうです。仮にこの時の諫言を受け入れていればまた異なる結末だったかもしれません。

このように一度作ったモデルを盲目的に信じるのではなくモデルをモニタリングし担当者をサポートしていくような役割が人間には期待されています。

(*4) 構造方程式モデルを用いる方法やlasso回帰を用いる方法などが提案されている

(*5 参考) https://www.financepensionrealestate.work/entry/2018/03/29/210523

最後にアナリティクスそのものの中で人間が持つ優位性について考えてみます。かってデータ・アナリストは特徴量の抽出で他者と差別化してきました。しかし残念ながらこの領域はディープラーニングにより人の介在する部分は相当減少すると考えられます。2012年のILSVRC(画像認識の精度コンペ)でヒントン教授率いるトロント大学のSuperVisionは2位以下を圧倒的に引き離したスコアで優勝したのです(*6)。この成果はディープラーニングを今日までに至る機械学習の主役としました。少なくとも非構造化データの特徴量の抽出に関していえば人間が勝てる部分はないと考えるのが妥当です。一方で少し変わった見方をすると優秀な機械学習のロジックは猫の画像を猫と99%で見分けられるとしても我々人間は多分100%見分けられるはずです(もっとも猫っぽい犬がいないわけでもないしその逆もしかりだが)。つまり人間の脳を超えた知見を得たわけでないのです。(*7) このことはディープラーニングが非構造化データの解釈やタグ付けを超高速に自動化可能であることを意味している一方でナレッジディスカバリーの観点から見てみると、特にディープラーニングである必要はないとも解釈できます。勿論自動化によりもたらされるイノベーションは大きいです。しかしそれはナレッジディスカバリーを生業としてきたデータアナリストを必ずしも代替するわけではないのです。依然として誤差項(e)が確率分布する前提のモデルにはデータ・アナリストの知見が有効な部分も多分にあるのです。

文字数が多くなりすぎたので次に続くきます….

(*6 参考) http://image-net.org/challenges/LSVRC/2012/results.html

(*7) もう少し厳密に述べると機械学習モデルは数理統計モデルと仮定が異なり誤差に確率分布を前提としてません(数学的な処理として同値になることはある)。誤分類は誤差(e)が確率的にふるまって生じるのではなく特徴を捉えきれていないとため生じると解釈し、統計モデルは誤差(e)がある特定の確率分布に従って発生するため誤分類はある程度誤差から生じると解釈します。人間が猫を見た人間の判断は猫+誤差ではなく猫です。しかし猫の画像の特徴量を人間が解釈しモデルに入力すると分類率は100%となりません、人間→機械の工程で情報が剥落しているからです。他方ディープラーニングは機械→機械の工程での情報の剥落が少ないので人間の特徴量より高い精度を出せるのです。ところで新銀行東京の例のように将来融資が焦げ付くかは未来の事なので誤差が確率分布に支配されます。そのため猫を猫と人間は100%で分類できますが債務の履行/不履行を人間はデータから100%分類できません。機械も同様です。従ってこの問に関しては人間が有利不利というよりも、ほとんど同じ地点にいるといって良いでしょう。実際データ分析のkaggleで上位に入賞するには如何に気の利いた特徴量を作るかが肝要のようです。