これからの「実利的なデータサイエンス」の話を『評価指標入門』で学ぼう

はじめに

あなたはデータサイエンティストとして,とある会社に勤務しているとします.

「で,この施策で一体いくら儲かるの?」

「F1 scoreがこれだけ上がったらどれくらいの利益に繋がったの?」

と,非データサイエンス部署から質問された(しばしば詰められた)として,あなたはどれくらい胸を張ってこの問いに答えられるでしょうか?

この問いに答えを出すための考え方を学べる最良の手段は,タイトルに掲げた『評価指標入門』を読むことだと思います.

gihyo.jp

幸運にも同僚の伝で,技術評論社様からこちらの本(以下,「本書」と呼びます)をご恵贈いただけました.この場をお借りして感謝を申し上げます.僭越ながら,本記事では本書のご紹介をさせていただきます.

『評価指標入門』書評

本書は,単に機械学習モデルの学習が上手くいったかどうかを測る一般的な評価指標の説明の羅列…だと思ってもらっちゃあ大間違いです.

本書の最大の特徴は,各章の終盤や付録で語られている,簡単なケースを例示しながら「利益=売上 - コストのお金の計算を真面目に分解して数式で指標を導出する」パートです.とても秀逸で一読の価値があります.複雑な要素が絡み合うビジネスシーンにおいては,本書で置いている仮定が単純すぎて当てはまらない場合もあるかもしれませんが,それでも「(おおよそ)XX円儲かると予想されます!」と主張できるロジックを組むことは,企業で働く実務家としてはこの上なく重要なことなのではないでしょうか.たとえアバウトな近似だとしても,「人件費がざっと月これくらいで,モデルやシステムの運用コストがこれくらいだと置くと,利益に最大限直結する評価指標はこういう定式化になる」という式を導く説明が一貫して明快に(しばしばフレンドリーに)語られています.

「数理の知識を生かして社会の役に立ちたい!」と望む私のような読者にとってドストライクな書籍が世に生み出され,ずっとワクワクが止まらないまま本書を一気に読んでしまいました.

昨今では,データサイエンティストが業務を遂行するのに必要となる素養として「ビジネス」「ドメイン知識」などといった単語が口を酸っぱくして語られていますが,その具体的な意味を最も実感できるのも本書なのではないでしょうか.まさにサブタイトルにもある通り,「ビジネス」と「サイエンス」を繋ぐ橋を架ける方法についてヒントを得ることができるでしょう.

我々読者自身の会社において本書と同じような定式化をこなしていくことは,一定以上の数理的なセンスが要求され,必ずしもすんなりと簡単にできることではないとは思います.しかしそれでも,我々のような「企業で雇用されるデータサイエンティスト」が飯を食っていくために何よりも重要な姿勢が本書で語られていると思いました.

私自身も冒頭のような問いに即答できない場合がある現状を反省し,座右の書として常に振り返るようにしたいと思います.

この本を誰が読むべきか?

あなたが実務でデータサイエンスを取り扱う仕事に就いているのであれば,間違いなくご一読の価値があると断言できます.機械学習でよく使われる指標自体に既に慣れ親しんでいる方(RMSEやAUCと聞いてピンとくる方)であれば,もしかしたらスラスラ読めるパートも多いかもしれません.それらも体系的に確認しておさえておきたいという駆け出し寄りのデータサイエンティストの方々であれば,より本書に読み応えが出てくるかもしれません.

逆に,「Kaggleのようなコンテストで勝てる機械学習モデルを作りたい」といった方や,実務でデータサイエンスの部署と間接的にでも関わりがない社会人であったり学生の方は本書のターゲットからは外れているかなと思いました.特に学生の方だと,ビジネスやお金周りの話題が出てきても共感しづらい部分があるかと思います.ただし,そのような属性の方々であってももちろん本書から得られるものはあると思うので,お気軽にめくってみる分には一向に構わない超良書だと思います.

おわりに

この記事では,『評価指標入門』の内容をご紹介させていただきました.少しでも気になった方は是非チェックしてみていただければと思います.