【第15回】MacBookProで始めようデータサイエンス ~クラスター分析~

ツール・手法

今日はMacBookProでデータサイエンスを進めて行くシリーズの15回目となります。マーケティング領域で使えるデータサイエンス手法をテーマに記事を書いて行きます。今回は”クラスター分析”をご紹介していきます。前回、マーケティングで使える8つの分析手法について取り上げましたが、今回からランダムですが、具体的な中身について説明していきます。是非最後まで読んでいって下さい!

  • クラスター分析とは
  • クラスター分析の種類
  • クラスター分析のコツ
  • クラスター分析関連の統計解析・機械学習アルゴリズム
  • 注意点

1.クラスター分析とは
クラスタ分析は別名 クラスタリングとも言われておりどちらも同じ意味で使われています。クラスタリング(clustering)とは、統計解析手法や機械学習の1種でデータの類似性(=距離計算が一般的)に基づいてデータをグループ分けする手法です。

<活用例>
 例えばマーケティングにおいては顧客の属性データ(性別、年齢、趣味)や購買履歴等組み合わせた顧客セグメンテーションの活用や新商品やサービスを販売するに当たっての他社との比較を行う際の市場調査などでも活用が可能です。

分類とクラスタリングの違い
クラスタリングはデータの類似性(=距離計算が一般的)を取り扱うため”分類”と同じ意味に捉える方が多くいますが、実際には2つは異なる意味を示します。

”分類は教師あり学習”となり、どのグループに所属するのか答えを基に学習したモデルを使って未知データに対して所属先を予測していきます。一方、”クラスタリングは教師なし学習”のため、でーたを基に特徴を学習してグループ分けをしていきます。

代表的な2種類のクラスタリング
 こちらは予備知識ですが、クラスタリングには大きく分けて2種類があります。階層クラスター分析非階層クラスター分析です。階層クラスター分析とは、集合体のデータのうち、最も似ている組み合わせから先にまとめていく階層的手法です。非階層クラスター分析は階層を作らずにデータをグルーピングしていく手法です。母集団の中で近いデータを収集し、指定された数のクラスタに分類します。この方法では階層クラスタリングとは対照的にクラスタを形成した後で自由にクラスタを分けることができないため、事前にクラスタ数を指定する必要があります。
 

2.クラスター分析の種類
 これからご紹介するものは正確には”クラスター間の距離の測定方法”となります。
・ウォード法(最小分散法)
・群平均法
・最短距離法
・最長距離法


ウォード法(最小分散法)とは、凝集型のクラスター分析の手法の1つです。ウォード法はすでにあるクラスターの中で、1番距離の近い2つのクラスターが選ばれ、1つのクラスターに結合されていく操作を、目標のクラスター数になるまで続ける方法です。

群平均法とは、2つのクラスターに属している対象の間のすべての組み合わせの距離を求め、それらの平均値をクラスター間の距離として定める手法です。群平均法は鎖効果を防止できるメリットがあるためウォード法を実行した時に起こってしまう鎖効果(1つのクラスターに対象が1つずつ吸収されていき、新しいクラスターが作られる現象)を未然に防ぐことが出来ると言われています。

最短距離法とは、単連結法とも呼ばれる、2つのクラスタ間で一番近いデータ同士の距離を、クラスタ間の距離として採用する手法です。群平均法と同様に、クラスタを構成する要素同士の距離をすべて求め、その中で一番距離の短い組み合わせを選ぶことでクラスタ間の距離として求めます。この方法のメリットはウォード法などと比較した場合に、計算量が少なくなりますが、同時に外れ値に弱いというデメリットがあります。

最長距離法とは、最短距離法とは反対に、クラスタを構成する要素同士の距離の中で最長のものをクラスタ間の距離として表します。

3.クラスタリング分析のコツ
以下の4つを検討材料のすると良いと思います。
1.対象となるデータ
 対象データ内の変数を対象にするのか、サンプルデータを対象にするのか
2.分類の形式(種類、生成)
 階層クラスター、非階層クラスター
3.分類に用いる類似度
 ユーグリッド距離、マハラノビスの距離等
4.クラスター間の距離の測定方法
 ウォード法(最小分散法)、群平均法、最短距離法、最長距離法

4.クラスター分析関連の統計解析・機械学習アルゴリズム

アルゴリズム名概要Pythonライブラリ
k-Meansそれぞれのクラスタ間の分散(距離として考えると理解しやすい)を最小限に抑えることで、どのデータをどのクラスタに配置するかを決定ー構造(=樹形図)によってデータを分析する手法scikit-learn
DBScan密度に基づくアルゴリズムです。DBSCANは高密度領域を探索し、特徴空間で高密度領域を拡張することでそれぞれのクラスタを決定scikit-learn
Mean Shift重心に基づくアルゴリズム。 データの密度を使用して重心を探索し、調整します。 Mean Shiftアルゴリズムを使用する場合は、クラスタ数を考慮する必要なしscikit-learn

4.注意点
クラスター分析に関わらずですが目的が明確にする必要があります。対象とするデータの定義や類似性が不明では適切な結果を得ることが出来ません。 クラスター分析はあくまで類似の対象物を箱に分類することを目的にしており、それ以上のことは出来ないと思っておいた方が良いです。

今回は以上となります。最後まで読んで下さりありがとうございました。

コメント

タイトルとURLをコピーしました