【第12回】MacBookProで始めようデータサイエンス ~アソシエーション分析~

活用例

今日はMacBookProでデータサイエンスを進めて行くシリーズの12回目となります。マーケティング領域で使えるデータサイエンス手法をテーマに記事を書いて行きます。今回は”Pythonを使ってアソシエーション分析”をご紹介していきます。前回、マーケティングで使える8つの分析手法について取り上げましたが、今回からランダムですが、具体的な中身について説明していきます。是非最後まで読んでいって下さい!

  • アソシエーション分析とは
  • アソシエーション分析の主な指標
  • アソシエーション分析関連の統計解析・機械学習アルゴリズム
  • 注意点

1.アソシエーション分析とは
アソシエーション分析は、関連性を分析する統計解析・機械学習の手法です。膨大なデータの中から関連性の強い組み合わせや意味のあるパターン(基本的にはアイテム)を発見する際に役立ちます。 時間軸の概念は余り考慮されていないため”因果関係を証明”するようなことは出来ません。あくまでもある商品(A商品)とある商品(B商品)が同時発生した”組み合わせ”が何かを分析する手法です。



<活用例>
主には顧客毎に、その顧客が購入した商品購買歴を付与します。それを他の顧客とまとめて分析することによって連性の強い組み合わせや意味のあるパターンを発見します。
ID-POSデータ、通販などで良く利用されています。

[参考情報]
マーケットバスケット分析は単に”バスケット分析”という名称で呼ばれることがあります。アソシエーション分析=バスケット分析と思っていただいても特に問題はありません。

2.アソシエーション分析の主な指標
現時点で最も有名なアソシエーション分析の手法は”Apriori”となります。そのAprioriで使われている重要指標が以下となります。

指標名称概要備考
ConfidenceA商品を買った人の内、どれぐらいの人がB商品を買ったのかという確率値、これを日本語言うとConfidence(=信頼度)と言いますB商品を買った人の内、A商品を買った人を見る場合は別の指標となります
SupportA商品とB商品を併売した人がどれぐらいあるかとう指標でSupport(=支持度)と言いますある程度の母数が必要となった場合に使う指標となります
LiftB商品自体を買った人の数を見る指標でLift(=リフト)と言います例えば単体でも売れている場合の情報を除外したとなった場合に使う指標となります

後ほど補足説明しますが、上記の3つ指標には明確な基準値ある訳ではありません。必要条件に応じてデータサイエンティスが、この3つの指標を見ながら分析を進め良好の結果になるよう試行錯誤していくイメージです。

3.アソシエーション分析関連の統計解析・機械学習アルゴリズム

アルゴリズム名概要Pythonライブラリ
Apriori頻出アイテム集合の検出と相関ルールの検出を行いますMlextend

[補足説明]Aprioriアルゴリズムとは
併売分析が目的なため”1対1の購買パターン”だけでなく、実際には”多対多の購買パターン”も分析したいというニーズの方が強いと思います。そうなる計算量が膨大になるため、それを効率的に処理させるアルゴリズムとして”Apriori”は開発されたようです。

4.注意点
基本的にはLift値が高いものは関連性が高いと考えられるのですが、そのデータ数が少ないとそれが偶然に起こっただけかもしれないという可能性があります。その為、データ数が少ない場合は特に注意が必要です。データ量を増やすなど意思決定に関わりますので、慎重に分析を進めて行ってください。

今回は以上となります。最後まで読んで下さりありがとうございました。

コメント

タイトルとURLをコピーしました