【第13回】MacBookProで始めようデータサイエンス　～決定木・ランダムフォレスト～

今日はMacBookProでデータサイエンスを進めて行くシリーズの13回目となります。マーケティング領域で使えるデータサイエンス手法をテーマに記事を書いて行きます。今回は”決定木・ランダムフォレスト”をご紹介していきます。前回、マーケティングで使える８つの分析手法について取り上げましたが、今回からランダムですが、具体的な中身について説明していきます。是非最後まで読んでいって下さい！

決定木とは
決定木の主な指標
決定木関連の統計解析・機械学習アルゴリズム
注意点

１．決定木とは
決定木は、分類木と回帰木を組み合わせたもので、ツリー構造（＝樹形図）によってデータを分析する統計解析、機械学習の手法の一つです。分類モデルとなります。マーケティングや意思決定などさまざまな分野で用いられているとても汎用性の高い分析手法です。

＜活用例＞
　例えばキャンペーンを実施して、そのキャンペーンに反応した人（＝購入者）と反応しなかった人（＝未購入者）の要因分解することが可能です。

分類木と回帰木の違い
分類木とは、上記の活用例で説明すると”キャンペーンに反応した人と反応しなかったといった区分結果を分析することを言います。

　一方、回帰木とは、”3,000円以上の商品を買う”といった連続して変わりうる値を分析する場合には”回帰木”を使って分析することになります。

メリット、デメリット
＜メリット＞
・ツリー上に結果を表示してくれるため結果が非常に分かり易い⇒可読性が高い
・特徴量のスケール違いの影響を受け辛く、標準化などの前処理が不要 ⇒質的データから量的データでも扱えます。
　
＜デメリット＞
・分類性能は余り高くない
・学習データへの依存度が高く、未知のデータへの適応が難しい
・過学習し易いので、汎化性能が低い
・線形性のあるデータには向いていない

【参考】汎化性能とは
　モデル学習時に与えられた訓練データだけに対してだけでなく、新たな（＝未知）データでも上手く予測できる性能（能力）のことを汎化性能が高いと言います。

２．決定木の主な評価指標
　評価指標については、また別の機会で詳しく説明しますが、基本的には”正解率、適合率、再現率”を見て行きます。
・正解率・・・Accuracyは、実測値と予測値が一致した割合のことです。
・適合率・・・Precisionは、未購入者と予測したものの内、実際に未購入者だったものの割合になります。
・再現率・・・Recllは、実際に未購入したもののうち、どのくらい未購入と予測されたのかを示す指標となります。

３．決定木分析関連の統計解析・機械学習アルゴリズム

アルゴリズム名	概要	Pythonライブラリ
決定木	ツリー構造（＝樹形図）によってデータを分析する手法	scikit-learn
ランダムフォレスト	複数の決定木を集めたもので、決定木よりも高い精度が得られ易い

［補足説明］アンサンブル学習とバギング
　アンサンブル学習とバギングはランダムフォレストととても関連性の深い用語になります。アンサンブル学習は、複数のものが集まって一体化した状態を指します。多数決をとる学習方法で、別々の決定木としてそれぞれ学習させた結果をまとめるといった意味になります。
　一方、バギングは、アンサンブル学習の主な手法の一つです。ブートストラップサンプリングによって得た学習データを用い、複数の決定木を作って多数決をとります。母集団の学習データから、各決定木で使うデータをランダムに復元抽出することで、データセットに対して多様性をもたせる手法です。

４．注意点
前段でも記載しましたが決定木は過学習し易いというデメリットがあります。決定木分析を行う際は、分岐の数をどれくらいにするか分析者が決めていく必要があります。
分岐の数が少なすぎる場合、十分な予測ができずに精度が低くなりすぎるリスクがあります。
分岐の数が多すぎる場合、可読性が下がります。
繰り返しになりますが、コツは複雑にならないように木の深さをある程度で制限するといった対応策もありますので、是非考慮しながら進めて行って下さい。

今回は以上となります。最後まで読んで下さりありがとうございました。