RとPythonで学ぶ実践的データサイエンス&機械学習

本の紹介です。

Pythonは説明するまでもないでしょうが(プログラミング言語の1種で、機械学習用に作られたものではないのですが機械学習に強いです)、Rも織り交ぜて説明しているのが本書の特色でしょう。

Rは、統計解析に特化したプログラミング言語です。

以下のページからR Studioという統合開発環境をダウンロード・インストールすることで利用できます。

Downlaod R Studio

本書の内容

本書の最初の1/5は、RとPythonの解説で終わります。

その後の1/5では、線形回帰や検定、ダミー変数や交互作用項といった統計学の基礎の解説で終わります。

すでにRとPythonを知っていて、統計学の基礎も知っている人にとっては、面白くなってくるのは、それ以降です。

次の1/5では、オーバーフッティングの問題から始まります。赤池情報量基準(AIC)やベイズ情報量基準(BIC)、L1,L2正則化など。

その次の1/5では、

  • 関連性分析…相関分析
  • グループ化…クラスタリング
  • 次元削減…因子分析、主成分分析
  • 要因分析…線形回帰、ロジスティック回帰、決定木

など。

そして最後の1/5にて、

  • ランダムフォレスト
  • サポートベクターマシン
  • ニューラルネットワーク(ディープラーニング)

に触れます。

注意点

本の前半ではRとPython両方のコード例を示してくれますが本の後半になってくると、Rのコードが減ってきます。つまり、Pythonの解説しかありません。

びみょい。

数式を多用せず簡単に説明することに本書の強みがありますが、逆にいえば数式を使った厳密性や深みがないので、本書で概要をさらっと入門したあと、

MLPシリーズ「深層学習」

に行くのが良いでしょう。こちらはディープラーニングを数式で厳密にガチガチに学ぶことができますが、最初から入ると挫折しかねないので。