統計検定1級(2021)を受験した話(統計数理の試験対策・勉強編)
この記事は何?
タイトルの通り、2021年の統計検定1級試験を受験し統計数理に合格してきたので、記憶が鮮明なうちに勉強してきた内容をメモしておこうと思います。ちなみに、統計検定は私にとって今回が(級によらず)初めての受験でした。
対策・勉強した内容以外の、当日の受験体験記は以前に公開していますので、そちらもご興味あればぜひ併せてご覧ください。
免責
あくまで個人的な方法論であるため、本記事の情報が必ずしも今後の試験においてそのまま有効であるとは限りませんのでご注意ください。損失等をこうむられた場合であっても、筆者は一切の責任を負いかねます。
TL;DR
久保川先生の教科書『現代数理統計学の基礎』の2~8章の章末問題((*)印は飛ばす) + 統計数理は過去問を仕上げました。過去問は1ヶ月以上前からやるのがお勧めです。
ちゃんと測っていたわけではないのでざっくりですが、あくまで個人の所要時間としてトータルで300時間ほど要しました。個人差が大きいところだと思うので、下記の勉強時間も軽い参考程度・目安だと思って読んでください。いわゆる天才肌の方や要領の良い方はもっとサクッと終わらせられそうですが、筆者を含め凡人を自覚している方であれば大量の勉強時間を費やすことが必要だと思います。もし基本的な微分積分・行列の計算に抵抗がある場合は、手計算方法のキャッチアップのために更なる時間が必要と考えます。
応用の対策法はよくわかりません。
試験対策開始前の筆者について
・業務で統計解析は全く使っていない。Rもほとんど書けない(ただし、1級の範疇ではプログラミングの力は全くと言っていいほど問われない)。機械学習は業務でよく使う。正規分布とか95%信頼区間の話はなんとなく知っている。
・私大理工学部物理系の学科及び同大学院同専攻修士修了(N年前)
・研究室配属では情報系のテーマを選択したため、理論物理系は全く分からない(忘れた)。
・おっちょこちょいな性格で、分数の足し算引き算も普通に間違える(下記の演習を積んでいくうちに少し改善された)
・Bishop先生の『パターン認識と機械学習』(俗称PRML、黄色い本など)に修士1年の頃に出会い、上巻4章あたりまでは自分で手計算で確認しながら読み進めたことがある。演習問題も簡単なものは解いたことがある。
〜勉強してきた内容について時系列でご紹介〜
あまり計画的でなかったので鵜呑みにしてほしくないですが、以下のように進めていきました。
6~7月(20時間)
私事ですが7/1に新しい職場に入社するイベントがあり、業務でよく使う知識のキャッチアップばかりしていて正直統計はまだおろそかでした。
しかし、TLでちょくちょく話題になる統計検定1級について興味を持ち、受験を検討し始めます。2019年の過去問が公式HPで無料公開されていたのでとりあえずダウンロードし、レベル感を確認しました。問題文の意味・専門用語が全然分からなかったのが悔しかったので、竹村先生の教科書『現代数理統計学』を読み始めました。この頃は、「今年受けなくても別にいいかな」と気楽に構えていました。
この教科書は、TL;DRには載せていないですが個人的には購入をオススメします!その理由は、初学者の理解を促すように語りかけているような文体で書いてくださっているためです。実際、統計検定公式のお墨付きを得て「関係図書」リストにその名を連ねているようです。
ただし、「統計数理」の出題範囲をカバーしきれていない場合が少しあるところが致命的な弱点です。わかりやすい例だと「デルタ法」「ワルド検定」「スコア検定」の話が載っていません。探したら他にも載っていない話があるかもしれません。
一方、久保川先生の本では、「統計数理」で登場する話題であればほぼ全てカバーできている印象ですし、章末問題もより1級対策としてのフィット感があります。ただし、これも個人の印象ですが、竹村先生の本に比べるとスッキリまとまり過ぎていて、初学者にとっては本文のとっつきやすさが低い感じがします。分からないところが出てきたら、2冊を相補的に読んでいくことが理解への近道になるのではないでしょうか。
けんちょん氏のQiita記事に素直に従い、まずは最重要単元である確率分布の章だけきっちり理解するように読んでいました。確率分布は上述「PRML」で学んだことがあったため割とスラスラと読め、「ひょっとしたら今年ワンチャン受けられるかもしれない」と甘く考え始めます。
8月(40時間)
確率分布は大体分かってきたので、この月は統計的推定(不偏推定量、最尤推定量、クラメール・ラオの不等式、フィッシャー情報量など)の理解に重きを置きました。実際この単元も毎年のように出題されている印象なので、手を抜かずやっていくことが求められると思います。また、手計算の鬼畜さが相対的に少ない単元もここだと思うので、ここを得意分野にすると安定して点が取りやすくなるのではないでしょうか。(20時間)
範囲の膨大さに対して理解が進んでいないことに焦りを感じ始め、理解度のブーストのために有料講座を検討し始めました。比較検討した結果、講義時間(3時間×10回=30時間)の長かった(株)すうがくぶんかさんの「統計検定1級対策講座」の受講を決断しました。
結構良いお値段がしますが、その分しっかりと教えてくださるので個人的には受けて良かったと思います(回し者ではないです、念のため)。ただし、当たり前ですが試験範囲の全てを網羅するには時間が足りない(特に応用は分野選択があるため、個別の話題に触れられない)ので、講義だけでなく自習も必要です。
(余談ですが、受講費用は会社に払ってもらいました。「受講したからと言って別に無理して検定試験を受けなくてもいいよ」とも会社に言われていたため、この頃もまだ気楽に勉強します。)
演習量が少ないことも懸念し、久保川先生の章末問題を解き始めたのもこの頃です。上記の「竹村先生の本はカバーしていない話題」の罠に気づいて、慌ててメインを久保川先生の本に切り替えました。まだ進捗管理はしていなく、パッと見て解けそうな問題をつまみ食いして20問くらい解いていました。(20時間)
9月(50時間)
「統計検定1級対策講座」の受講が始まります。毎回テキストのどの辺りまで進むか事前に教えてくださるので、予習をしておき、分からないところは必ず質問を用意しておくようにしました。(10時間)
並行して、確率分布と統計的推定という2大頻出単元は押さえ始めたので再び過去問をパラパラめくってみますが、依然として解ける気がしません。特に「統計応用」は目眩がするくらい訳が分からないので、この時点で2ヵ年計画(今年の統計応用は本番の雰囲気に慣れるための記念受験)を意識し始めます。(5時間)
まだ演習量が足りないという事実に青ざめ、慌てて残りの章末問題÷試験本番までの残り日数を計算しました。明らかに出題されにくそうな1章と、難易度が高そうな(*)印を除いても値が2.7くらいだったので、1日3問を目標に解くように進捗管理を始めるようになります。出願締め切りが10/14だったので、その頃までに明らかに間に合わなそうなら諦めようと思っていました。(35時間)
10月(90時間)
とっつきにくくて飛ばし飛ばし読んでいた「標本分布」「検定論」についても大まかに理解するまで本文を読み込み終わりました。(35時間)
「統計検定1級対策講座」も9月と同じように予習の習慣を作っておき、講義中は「うん、うん、そうだよね」と自分の理解を確認する作業になるように努めました。(20時間)
9月に始めた久保川先生の章末問題演習もコツコツ1日3問を続けます。9月の活動から1問1時間くらいかかる(概ね30分悩んで分からなかったら解答を読み込んで納得する。解説が難しい場合もあるのでここも30分くらい最大でかかる。この1時間周期を繰り返し)ことに気づき、仕事終わりの平日であってもなるべく時間を取るようにします。どうしても発生してしまう遅れは土日に解消しました。(35時間)
こうして勉強のペースが出来てきたので、受からなくてもペナルティはゼロであることをポジティブに捉え、統計数理・統計応用(数理との親和性が高そうな理工学を迷わず選択)いずれも出願します。この時点で統計応用は記念受験が確定し、数理1本で対策することを決めます。
過去問もそろそろ解き始めたかったのですが、(子どもはいないとはいえ)家庭を持っていながら何にも遮られずに本番相当の1.5時間を確保することが難しく、また仕事終わりで疲れていることを言い訳に後回しにしていました。今回最も反省すべきはこの態度かなと思います。量も8年分と決して少なくなく今後は増えていく一方なので、少なくとも1ヶ月以上前に過去問演習は是非取り入れることをお勧めします。特に、電卓を叩くタイプの演習は久保川先生の教科書では確保できないので、電卓計算にも慣れておきましょう。
11月(100時間)
散々逃げていた過去問をようやく解き始めました。選択問題の吟味も含め90分きっかりで時間を測って解きます。(30時間)
ここで9月とは明らかに違う現象が起きていました。
「解ける…解けるぞ…!!!」
常に大問完答とまではいきませんが、ほとんどの過去問で少なくとも部分点(小問半分個くらい)はギリギリゲットできている(計算ミスは発生しがちだが考え方は合っている)自分に気がつきます。久保川先生の教科書に全ベットしておいて良かったと心から思いました。
仕事がある平日はどうしても本番相当の時間が取れなかったので、過去問演習の1回目は全て土日祝に回しました。こうして無事に土日祝の楽しい予定が入る余地など全くなくなっていきます。大学受験生さながらの精神状態になり、TLに燦然と輝くオフを過ごすフォロイーを眺めている瞬間が一番つらかったです。それでも、共に勉強を頑張っている仲間も確かに観測できていたので、結局当日までTwitterを封印することはしませんでした。
章末問題は11/14(試験の1週間前)にようやく解き終わります(50時間)。流石に間違えた問題について2周目をやる余裕は時間的にも精神的にもありませんでした。
久保川「現代数理統計学の基礎」の章末問題をほぼ全て解き終わりました!!!
— Taro Masuda (@ml_taro) 2021年11月14日
※2〜8章、(*)を除く
これだけやって統計数理落ちたら流石に泣くと思う。応用は知らん。
残り6日間(20時間)は過去問の解き残しをやり、前日は体力の温存も兼ねて、忘れやすい公式のまとめ+モーメント母関数・期待値・分散の導出ノートを作る程度に留めて寝ました。試験会場での最後のあがきとしても優秀な教材が仕上がるので個人的にはお勧めです。ちなみに、自分が想像していた以上に身体は緊張していたようで、前日はろくに寝れませんでした…
せっかくなので、本番当日に選択した問題の話にも触れます。具体的な問題や解き方に関しては言及が禁止されているそうなので、大雑把なキーワードのみ記載することにします。
[統計数理]
問1 [2つの確率変数の独立性・期待値]
問2 [超幾何分布の最尤法・ベイズ法]
[統計応用/理工学]
問3 [プロビットモデルとベイズ推定]
問4 [決定木とGini係数]
問5 [ベイズの定理]
問題選択についても悩ましいところですが、今年は幸運にもパッと見で「うわ、自分は苦手そうだな。パス」と捨て問を判断することができました。
ご覧頂ければお気づきかもしれませんが、この年は最尤推定量やベイズ法に関する出題が目立ち、また時代の流れを受けてか機械学習に関する問も丸々1つ登場しました(選択していない問題の傾向までは追えていませんが)。毎年傾向が変わっている感じもするので今後のことが読めませんが、上記「PRML」をまともに読んだことがある人にとっては最尤推定量・ベイズ法・機械学習などいずれも慣れっこだと思うので、かなりラッキーな出題セットだったのかもしれません。(「PRML」は本当に読み解くのに時間がかかるので、手放しにオススメすることはできませんが…)
想定Q&A
Q. 久保川本の章末問題難しすぎない?解いて意味あるの?
A. 半分くらいはお気持ちがわかります。本番の試験よりも難易度の高い問いも珍しくありません。しかし、シンプルにこれよりも良い問題集を私は知らないです。難しいとはいえ理解度をしっかり問うてくる良問揃いだと思いますし、理工書には珍しく、略解ではなくしっかりと解説が付いた解答PDFがご本人のウェブサイトで公開されています(それでも行間を読むのが大変なものも多いですが)。少なくとも統計数理であれば、「ああ、なんか類題やったよなー」という感じで、本番の試験中に「進研ゼミでやった問題だ現象」を感じることができると思います。逆に言うと、それくらい”仕上げて”いかないと、30分/大問1つ という時間制限では最後の小問まで解ききる時間がないと思います。小問は大体4つくらいあるので、小問1つにかけられる時間はたったの7分です。
なお、よっぽど時間がない場合は、8章「信頼区間」の話は後回しでも良いかもしれません。なぜなら、出題頻度としては他よりもやや低いですし、7章「検定」が仕上がっていれば、受容域を単に信頼区間と定義するだけで自動的に8章の範囲もよく解けるからです。
Q. 線形回帰モデル、ちょいちょい統計数理に出てるんだけど久保川本に演習問題なくない?
A. おっ、よく気づきましたね。残念ながらそうなんです。(ここまで長い本文を下の方まで読んでくださったありがたい読者の皆さまにだけこっそりお教えします。実は久保川本の唯一の弱点がそこです。)線形回帰モデルについては過去問中心に演習を積むしかないかなと思います。他にいい参考書があればコメントなどで教えてください。
Q. 教科書の本文ってどれくらい真面目に読むべき?
A. まず、「発展的事項」は飛ばしてもいいと思います。ここを読んでいなくて統計数理の過去問演習で困る場面はありませんでした。それ以外の基本的事項すら理解するのは大変なので、まずは基本を固めましょう。演習問題と過去問含め解けるようになって、よっぽど時間が余ったら手を出すくらいが個人的おすすめです。
「発展的事項」を除いてももし試験まで時間がないなら、例えば証明の細かい論理展開までは追わなくても良いと思います。試験で定理の証明が出ることはほぼないと思うので。しかし、時間があれば個人的にはできるだけ細かく読んだ方がいいと思います。理由は、定義と定理の結論だけ見てスラスラと問題を解けることの方が珍しいからです。試験対策RTAを否定するつもりはありませんが、新しく学んだ概念をより腹落ちさせるために細かく・じっくり読んでいくのも悪くないと思います。
話がずれますが、統計応用では毎年傾向を変えてくるあたりから推察するに、単なる試験合格RTAを狙う受験者を意図的に振るい落としてるのではないだろうか?とさえ勘ぐってしまいます。「過去問さえ解けりゃいい」の枠を飛び越えて、「自分の興味を持った統計応用系の書籍にどっぷり浸かる」くらいを目指しておくことが、一見遠回りに見える合格戦略になるのかもしれません…🤔
Q. 公式の教科書は買わなくていいの?
A. 特に統計応用の範囲をざっと確認するためには、他のドンピシャな書籍がないため結局買う必要があると思います。しかし、公式本を余裕ではみ出してくる出題も多数見られるので、あくまで参考程度にとどめておく使い方になる気がします。
おわりに
この記事では2021年の統計検定1級試験の個人的な対策・勉強法をまとめました。来年以降に受験を検討される方にとって少しでも参考になれば嬉しいです。