本の紹介です。
Pythonは説明するまでもないでしょうが(プログラミング言語の1種で、機械学習用に作られたものではないのですが機械学習に強いです)、Rも織り交ぜて説明しているのが本書の特色でしょう。
Rは、統計解析に特化したプログラミング言語です。
以下のページからR Studioという統合開発環境をダウンロード・インストールすることで利用できます。
本書の内容
本書の最初の1/5は、RとPythonの解説で終わります。
その後の1/5では、線形回帰や検定、ダミー変数や交互作用項といった統計学の基礎の解説で終わります。
すでにRとPythonを知っていて、統計学の基礎も知っている人にとっては、面白くなってくるのは、それ以降です。
次の1/5では、オーバーフッティングの問題から始まります。赤池情報量基準(AIC)やベイズ情報量基準(BIC)、L1,L2正則化など。
その次の1/5では、
- 関連性分析…相関分析
- グループ化…クラスタリング
- 次元削減…因子分析、主成分分析
- 要因分析…線形回帰、ロジスティック回帰、決定木
など。
そして最後の1/5にて、
- ランダムフォレスト
- サポートベクターマシン
- ニューラルネットワーク(ディープラーニング)
に触れます。
注意点
本の前半ではRとPython両方のコード例を示してくれますが本の後半になってくると、Rのコードが減ってきます。つまり、Pythonの解説しかありません。
びみょい。
数式を多用せず簡単に説明することに本書の強みがありますが、逆にいえば数式を使った厳密性や深みがないので、本書で概要をさらっと入門したあと、
に行くのが良いでしょう。こちらはディープラーニングを数式で厳密にガチガチに学ぶことができますが、最初から入ると挫折しかねないので。