データサイエンティストの給与はなぜ高いのか

飯田勇人

6 min readDec 20, 2019

データサイエンティストの給与水準について需要と供給のギャップでよく説明される

曰く世の中の需要に対してデータサイエンティストの人数が圧倒的に足りないからである

しかし需要と供給によって決まる給与の水準は給与の最低レンジに寄与するはず

一方で給与の最大値はその会社に提供できる価値(の半分くらい)が水準のはず

さて、ではデータサイエンティストが提供する価値とはなんだろうという話をしていて自分なりに一つ答えが出たのでブログにして残すことにする。

TL;DR

営業職->IT エンジニア->データサイエンティストへの流れ
顧客、市場の情報をプロダクトや社内に反映させるフィードバックサイクル
フィードバックサイクルを早くする方向へ動いている
フィードバックサイクルの圧縮によって得られる改善の速度と、売上の増加分が最大報酬を引き上げている。

# 営業職 -> IT エンジニア -> データサイエンティストへの流れ

## 営業職の時代

ものを作れば売れるという時代が終わった後、世の中のニーズをいち早く察知して製品、社内に反映することが重要になった。

ここで営業職というのは「お客様への第1の接点」としてこのサイクルの起点となる。

直接お客様からの情報を得て社内のプロダクトを更新し、その結果を再びお客様にあててフィードバックを得る。

ここで得た知見をどう会社全体、バリューチェーン全体へ波及させるのかという仕組みについては、トヨタのカンバンやジャストインタイム、あるいは稲森さんの実学にくわしい。

実学

## IT エンジニアの時代

時代がくだってインターネットでなんやかんやする時代になった

すると一部のプロダクトでエンジニアが最もお客様に近い存在となった

サイクルとしてはこんな感じ

実装コードを書く
デプロイする
ユーザーが利用する
ログデータが貯まる
ログデータを分析して改善できたか評価
次の打ち手へ

直接人間同士のコミュニケーションを介さなければ取れなかった情報がオンラインで取得できるようになり、デプロイとログデータの評価を繰り返すだけで今までの数十倍から数百倍の速度で改善が回るようになった。

言い方を変えると、浅い情報しか取ってこれなかったへっぽこ営業職が仕事を失いその分の報酬がエンジニア側に移動したとも言える

一方で直接話さないとわからないことの重要度が増し、優秀層の営業職は報酬がむしろ上昇した(これ根拠資料あった気がする

このエンジニアサイクルで改善可能なKPIを事業のコアに出来た企業がとてつもない速さで躍進したのは知っての通り

さらに言えばデプロイサイクルを加速させる周辺のあれこれ(CI/CDやカナリアリリースやテスト文化などなど)を支える人たちの価値も上昇して全体の給与水準上昇に寄与していった

## データサイエンティストの時代

データサイエンティストの仕事をおさらい

大量のデータを集めて分析
データから仮説(モデル)を作成
モデルを大量のデータにあてることで数学的に評価する
評価した上で改善して新たなモデルを考える

以上のサイクルは本質的には

大量のデータを利用することでユーザーの行動をシュミレートして仮説を検証する

ことをしていて、つまり

デプロイをする前に新しい施策がうまくいくかどうかの検証を済ませる
データから知見を得て改善サイクルを計算機上だけで行う

が現実になってきている

データサイエンティストの時代において今までエンジニアの作業であった「実装、デプロイ、評価」のサイクルはデータサイエンティストのPC上で行えるようになった。

エンジニアによるデプロイ中心のフィードバックサイクルからモデリング中心のフィードバックサイクルに変化することで、検証速度はさらに数十倍、数百倍に加速した。

今はエンジニアチーム4人×1週間で1デプロイくらいのペース

データサイエンティスト一人一週間で10個くらいのモデルを試してたりする

つまり

今までは施策を検証するには実際に実装してデプロイをしてユーザーの評価を得るのに1,2週間かかっていた仕事が、データサイエンティストの手元で検証が進められるようになった
逆にデータサイエンティストがいなければすべての施策についてデプロイを行わなければ検証ができなかった
仮に勘で作った施策でもデータサイエンティストが机上で検証サイクルをまわすことで「データに裏付けられた施策」に進化させてからデプロイできるようになった。

「データサイエンティストの給与はなぜ高いのか」の答えとしては、このフィードバックの圧縮によって得られる改善の速度、そして、この改善で得られる売上の増加分が最大報酬を引き上げている。

という感じではないかと。

余談1 この先エンジニアの給与どうなんの

これは上の営業職の話と対比するならば

もちろんデータサイエンティストが実験し終えたモデルもあくまで予測値でしかない。最終的にはこれをデプロイしてユーザーの評価を得なければならないので、引き続き実装からデプロイに伴うエンジニアの仕事は重要。
でも必要なデプロイ回数は減るのでもっと価値の高い仕事に取り組めるはず。
データサイエンスで置き換えられる改善しかできない人は仕事を失っていく
もしくはデータサイエンスで検証するべき課題と実際にデプロイするべき検証の区別がつかない人

ということで同様に優秀層の給与水準はさらに上がる傾向にあるんじゃないかと

余談2 スクラムとデプロイサイクル

スクラムがめっちゃ良かったのはこの「デプロイする」という点にフォーカスしてそれをより高速にぶん回す仕事ように出来た点

一方でデータサイエンスの仕事ではデプロイの重要度は下がっていて、

むしろデータサイエンスの仕事を実際に本番環境にデプロイするまでは2,3ヶ月かかることもある

逆にデータサイエンスのフィードバックサイクル自体は一週間に何周も回っているわけで

サイクルが早すぎるがゆえにスクラムがマッチしないのではないかなぁという印象

じゃ代わりにどうすんねんというのは今の所自分は答えが無いです

海外の機械学習プロジェクトのマネジメント事例とか探せばわかるんだろうか

余談3 プロダクトマネージャーの仕事

事業のコアをエンジニアが得意な仕事に一致させるというのが

うまくいけばすごく事業成長できる可能性があって

これをどうにか実現するのがPMの仕事の一つだと思っているのですが

ここに更にMLを事業のコアに据えるという仕事も今後は増えてくるはずでめっちゃ難易度上がるなぁという感覚。

逆にこれができるPMは更に報酬水準上がっていきそう

余談4 最初から高かった説

もともとデータサイエンスがIT業界に入ってきた要因としてリーマンショックで仕事にあぶれたウォール街の住人がシリコンバレーに流れ込んできた説があって、

もともと金融系で給与水準が高かったことに引っ張られて給与が高くなってた説。

ただし、これを主要因だとすると日本のデータサイエンティストの給与を上げる理由が薄くなるので積極的に棄却しましょう。