統計応用という名の沼に飛び込もう

はじめに

更新履歴

2023-12-21 10:10:00 アドベントカレンダーに合わせ,まだ完全版ではないですが初版を公開しました.

2023-12-21 18:22:00 「合格のための戦略」を加筆しました.

2023-12-21 18:38:00 「おわりに」を加筆しました.

2023-12-21 18:49:00 「分野選択について」を加筆しました.

 

「統計・機械学習の数理」のAdvent Calendar 21日目の記事です.

この記事では,統計検定1級の合格要件として必須とされる「統計応用」という科目の試験について自分なりに考察した事項を共有したいと思います.多分に私見を含みますので,客観的事実とは峻別してご笑覧いただけると嬉しいです.

ちなみに筆者はこの科目に2年連続で落ちており,3年目でようやく合格しました.すんなり合格した成功者の体験談だけが知りたいという方はお引き取りいただいて構いませんが,失敗が続いた者からの視点もまた一定程度の価値があると信じてアウトプットしてみることにします.「せっかく受験するなら体系的にじっくり勉強したい」という方のみこの先を読んでください.

体験記にしてしまうともう何番煎じかわからないくらいたくさんのブログ・記事が既に見つかりますので,どちらかというと「この対策しにくい試験をどう突破するか」を個人にできる範囲で考察してみようという取り組みになります.具体的すぎる参考図書の話などにはあまり深入りしません.

どういう試験か?

公式の声明によると「レベル的には定量的なデータ解析に深くかかわるような大学での専門分野修了程度」の難易度であると定義されています.

統計検定1級|統計検定:Japan Statistical Society Certificate

どういう業務をしているかにもよると思うので受け取り方は個々人に委ねますが,いわゆる「データサイエンティスト」「データアナリスト」などデータ分析を生業とする職種に就いている以上は少なくとも出題範囲の概念的な理解くらいはしておいた方がいいんじゃないかなと個人的には思います.なくてもそれなりに生きてはいけるくらいの高難易度ではあるとは思いますが,それらが全くない人と一通り知っている人を比較したときにどちらをより信頼できるか?という話かなと思います.繰り返しますが「概念的な理解」が望ましいという私見であって「合格証明書がそれら専門職の免許である」とは言っていません.このテストで合格が取れなくても業務は回せることも多いでしょうし,その裏の命題もまた真になり得ます.

合格率はだいたい毎年20%くらいとなっています.そもそも大学数学レベルの知識を要求する試験であるため,志願の時点でかなりのふるいにかけられていることを加味すると,とても難易度の高い試験であると言えるでしょう.

解答指南・試験対策

具体的な問題や解答方法について紐解いていきましょう.解答用紙は論述用のものとなっており,学部や大学院の個別試験の数学と似たノリです.試験時間は90分間で,どんな過去問とも違うことを問うてくる小問を含む合計4~6つくらいの小問を抱える大問について,制限時間内に5問中3問をその場で取捨選択し解答することになります.問題選択や検算の時間を考えると,大問1つにかけられる時間はせいぜい25-28分くらいでしょう.これを小問の数で除すると,当たり前のように「小問1つあたりに4-7分くらいしかかけられない」という帰結が導かれるはずです.具体的な数値計算を求められることもあるので,電卓での加減乗除平方根の計算にも慣れておく必要があります.やってみると分かりますが,意外と電卓計算でモタつきます.メモリー機能なども使いこなせないと時間を食われますので,サボらず演習しましょう.

恐るべき時間の短さを鑑みると,「今まで見たことがないタイプの問題に対しても,手を止めないくらいの速さでなんとか部分点をかき集められるくらい意味のある論述・途中式を書き殴りなさい」というタイプの試験であることがご理解いただけるかと思います.言い方を変えると,「手を止めてじっくり解き方を考えている暇はない」ということあり,「これくらいの話題であれば大して熟考することなしに解き慣れておいて下さいよ」という運営側からの意図を感じざるを得ません.時間制約に加えて「年1しか受けられない」などのプレッシャーも加味すると平常な精神状態で試験本番で解いていけることは難しいですし,字を読んでもらうことに配慮して書くスピードが普段の殴り書きよりも遅くなる焦りなども考慮すると,リラックスした状態の7割くらいしか実力を発揮できないと思っていいでしょう.合格点も毎回非公開になっていますが,大体6割から7割くらいと言われている(後述の公式本にも載っています)ため,上の「7割くらいしか実力を出せない」論と組み合わせると「なんとかしておおよそ全ての小問について答えを出す」くらいの気合・気概を持っていないと確実な合格圏内に入ることが難しくなり,運ゲーの要素が絡んでくることになるでしょう.逆に,統計を専門としていない方であってもやたらと数学に強いタイプの人材であれば楽々パスしてしまうからくりがここにあります.要は「統計の専門に精通しているが合格できない」という偽陰性と,「専門的な統計学の知識をカバーし切らなかったけど数理ライクな知識のみでその年の問題セットでたまたま合格できたしまった」という偽陽性の両方が生じうるタイプの試験であるとご理解いただくのが適切でしょう.

典型的な例を交えて紹介します.理工学の2017年,2021年,2022年など多数の年において,最も頻出・王道分野の1つである「実験計画法」分野の出題を全て避けて選択することが可能になっていました.それで合格できてしまうことよりも,その勉強過程で何を得たのかを考えることの方がより大切だと個人的には思っています.たまたま一発合格するよりもむしろ,何年かかけてじっくり分野のいろいろな出題範囲に慣れ親しむ方が得られるものは大きいのではないでしょうか?これは一発合格した人を決して貶めたいわけではなく,むしろ一発合格できなくても(自分も含め)プラスに捉えることができるよ,というメッセージであるとお考えいただければと思います.

ちなみに,採点の詳細が開示されないため推測にはなってしまいますが,私の経験則的に部分点はかなり加味されると予想されます.私が合格した年も,最終的な答えの値の計算ミスが複数個生じて落ち込んでいたくらいでした.なので,考え方のプロセスを大事に記述するようにしてください.

対策困難さ

理工学を例にとり,過去10年間くらいでどのような分野の出題があったかを外観してみましょう.※あくまで個人がまとめたものになるので,鵜呑みにしないでください.誤り等について筆者は一切の責任を負いません.

このように,午前中の試験「統計数理」の色が強めに出題されることがやや多いですが,それだけでは勝ち切れないセットが並ぶことも多いです.

教科書・参考書について

したがって,万全の対策をするにはここに挙げたような複数分野に関する基礎的な話題を押さえていく必要があります.そこで役に立たせるのが難しいのが公式本です.例を取って説明します:実験計画法・直交表における「分割法」の1次誤差や2次誤差などの話題は確かに過去問に出題実績があります.これらの設問を公式本の知識だけで解答できるかというと答えはNOですSNSでは「公式本だけやっておけば良い」「統計応用含め久保川本だけやっておけば良い」「積分ゲー」といった論調も時折見受けられますが,これらの言説は自らの体験だけをもとに問題を矮小化しています.初学者にこのような混乱を与えるのは有害なことだと考えており,ここで明確にその説を否定しておきたいと思います.

なので,結局分野ごとに近い話題の参考書を複数漁って地道に勉強していくしかないです.ここがめちゃくちゃ大変で時間を吸われますが,覚悟を決めて向き合ってください.

合格のための戦略

1. 数学力でゴリ押して統計数理の対策重視で勝ち切る(非推奨)

前述の「やたらと数学に強いタイプの人材」を自認する方はこちらの戦略を取ることができると思います.しかし問題セットによっては応用を取り逃がす可能性が出てきますし,何より,応用にも面白い分野があるのにそれらをまともに学ばずして合格証明書だけを取って離脱してしまうのはとんでもない機会損失だと個人的には思います.まあ,合格という名誉だけが欲しい人はそうすればいいんじゃないっすかね,知らんけど.

2. 馴染みのある分野を増やしまくって未知の問題への反射神経を高める(推奨)

学問に王道なし,ということでご自身の受けられる分野の過去問を全て眺め,出されうる分野を満遍なく対策するというやり方がこちらです.

過去問を1つ1つ読んでいき,ざっくりどの分野からの出題であるのか,図のようにスプレッドシートでまとめていきます.理工の例は上で貼った通りで,人文なら多分下図のような感じになると思います.※あくまで個人がまとめたものになるので,鵜呑みにしないでください.誤り等について筆者は一切の責任を負いません.

これらを眺めていると,次に自分がやるべきことが少しずつ見えてくるでしょう.

人文 → 多変量解析がよく狙われるな.小西「多変量解析入門」または永田・棟近「多変量解析法入門」などをチェックしよう.

理工 → 実験計画法が大事だから永田「入門 実験計画法」などをチェックしよう.

といった感じです.参考書はご自身のレベルや好みに馴染む記述かどうかという観点でお好きに選んでください.どのみち試験に完全に適合したテキストはありませんので.

ある程度出題範囲についての理解が固まったら過去問にすぐに挑戦しましょう.1分野分だけでも50問近くあり,訓練を積んでいないと目安の30分で解き切るのはとてもじゃないですが不可能に近いですし,模範解答を読み込むのも時間がかかるので1問1時間以上費やすこともザラです.試験日までに問題を余らせてしまうという勿体無い状況をなるべく避けるようにしましょう.別分野の出題であっても自分野に関連が深い問いも探してみると結構あるので,過去問演習だけでも(良くも悪くも)かなりの時間をかけて鍛錬することができるでしょう.

※ただし,2014年以前はそもそも出題範囲表が現行のものと異なっていた(?)ようなので,場合によっては切り捨てても良いかもしれません.

分野選択について

分野選択は基本的にご自身の仕事・バックグラウンド・興味に近いものを選ぶ形でいいかと思いますが,個人的に機械学習系の人材の皆さんにおすすめなのは人文科学です.名前からすると「えっ?」と思われるかもしれませんが,実は上の図の通りクラスター分析や判別分析といった多変量解析系の出題が多く,機械学習で学ぶ範囲と重なる部分が最も多い分野です.逆に理工学は割と注意が必要で,意外と機械学習に絡んだ設問が少ない(2021の決定木などは例外的)ですし,理工学と謳っておきながら割と「工学」寄り(製造業での品質管理・実験計画法・寿命予測などを意識した設問が多め)です.名前のラベルに惑わされず,全分野の出題をざっと眺めて一番面白そうと思えるものを選べると理想的です.

Tips・前日までにやっておくと良いこと

どういうことを出題者が聞きたがるか一問一問しっかり味わう

統計応用は特に別の書籍や大学院入試等に類似の問題を見つけにくいことが知られています.なので,過去問の1つ1つを丁寧に解いていき,出題の意図に想いを馳せていくと本番でも動揺せずにスムーズに手が動いていくと思います.

完全に途中からやり始めた策なので全てを書ききれてはいませんが,理工学・人文科学を中心に解いた問題を1つずつXのスレッドで振り返る投稿を続けていました.↓

人に説明し読んでもらうコメントを意識することで,出題の意図を少しでも俯瞰できたのでこのやり方は結構おすすめです.どうしても人に見せるのが恥ずかしい場合は自分のノートや日記などに書くのでもいいと思います.

まとめノートの作成

演習を進めていると,「これは頭から抜け落ちそうだな」とか「この検定方法は細かい数式を頭に入れていなくて解けなかったな」と言った自分の弱点が徐々に炙り出されてくると思います.気づいた時になるべく早いタイミングでまとめノートにアウトプットしておきましょう!これを持っていけば,本番当日の会場でどんなお守りよりも強い精神安定剤になること請け合いです.

おわりに

この記事では「統計応用」という試験について紹介し,沼にハマってしまうほど対策が難しいタイプの試験であることを説明しました.

それでも,その沼はハマる価値のあるものだと思っています.勉強して身につけた統計的思考能力は必ず実務や今後の勉強などにおいて役立つことでしょう.

すうがくぶんかの内場先生 ( https://twitter.com/utaka233 )もしばしば「何度も落ちてしまっても決して恥ずかしいことじゃない,そういうものです」とおっしゃっていました.士業の資格試験などとは異なり,落ちても(受験料以外に)何の不利益もない試験ですので,臆せず打席に立ち,果敢に沼に飛び込んでいきましょう!