今日はMacBookProでデータサイエンスを進めて行くシリーズの8回目となります。今回はデータサイエンス、データサイエンティストにとって必須となる”統計基礎”についてご紹介していきます。今回は”多変量解析(後編)”を扱います。是非最後まで読んでいって下さい!
- 統計とは
- データの種類と尺度
- 記述統計
- 検定
- 多変量解析(後編)
- 共分散構造分析
- 生存時間分析
5.多変量解析 ※再掲となります。
多変量解析とは、対象データから得られたお互いに関連のある様々なのデータ(変数、変量)を総合的に要約したり、将来の数値を予測したりといった統計解析手法の一つです。多変量解析は、特定の分析方法を指すわけではなく、主成分分析、重回帰分析、クラスター分析など、数多くの統計解析、機械学習のアルゴリズムが含まれます。
マーケティングにおいても良く使われており、来店数予測、な将来の売上予測したり、顧客+販売データから顧客を特性が似たグループに分けたりといった目的など様々な用途で使われています。
【多変量解析の代表的な分析手法】
2.分類をしたい場合の多変量解析手法について、以下まとめたものです。
統計解析手法 | 目的変数(X) | 説明変数 | 備考 |
主成分分析 | 無し | 量的データ | |
因子分析 | 無し | 量的データ | |
クラスター分析 | 無し | 量的データ | |
数量化Ⅲ類 | 無し | 質的データ | |
コレスポンデンス分析 | 無し | 質的データ |
主成分分析
”主成分分析”とは、、相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の行う統計手法の一つです。多くの変数を持つデータを集約して主成分を作成する統計的分析手法です。何かを予測する教師あり学習ではなく、教師なし学習となります。
主成分とはデータの特徴を表す要素のことで、”第一主成分、第二主成分・・・”という形で表現します。
【ワンポイント】主成分分析によって分かること
固有値、寄与率、累積寄与率を見ていくことになります。
固有値は元のデータをどれくらい説明できているか示す指標で、基本的には1以上であれば十分に説明できていると判断します。
寄与率はその主成分がデータ全体を何%説明しているかを示すもので、直感的にその主成分の重要度を理解することができる指標です。
この固有値と寄与率をみて、第何主成分までを使って分析するか判断することが出来ます。
また第1主成分から第〜主成分の寄与率の合計を”累積寄与率”と言います。
第1主成分と第2主成分を使ってグラフ化などした際に、第2主成分までの累積寄与率はいくつかみることで、そのグラフが元のデータをどれくらい説明しているか判断することが出来ます。
因子分析
”因子分析”とは、”因子”は何かの結果を引き起こす原因を意味を見出す統計手法の一つです。マーケティング分野では主にアンケート調査の結果を分析し、回答者の”潜在意識”や”隠れた想い”を顕在化させる目的で使われています。
【ワンポイント】因子分析の進め方
1.共通因子の数を決定する
2.因子負荷量の算出する
3.因子負荷量の抽出結果を確認する
4.因子軸の回転してみる
5.因子の解釈する
6.因子得点の算出する
クラスター分析
”クラスター分析”とは、データ全体の中から似たもの同士をグループ分け(主には距離計算)を行う統計手法の一つです。クラスター分析ではグルーピングされたデータの集まりをクラスター(集団)と表現します。クラスターの数に決まりはなく、必要に応じて任意の数のクラスターにグループ分けすることが可能です。学習手法としては目的変数を設定しない教師なし学習に分類されます。
クラスター分析を行うと、各データが以下のように特定のクラスターに分類されます。
【ワンポイント】クラスター分析の種類
・階層性クラスター分析、非階層性クラスター分析に分かれます。
階層性クラスター分析は、デンドログラム(樹形図)を作成してクラスターを作成していくクラスター分析です。
非階層性クラスター分析は、あらかじめ定めたクラスター数でクラスターを作成します。
非階層性クラスター分析ではデンドログラムは作成されず、各データがそれぞれどのクラスターに属するかのみが分かります。非階層性クラスター分析のメリットは、処理時間が速いなどのメリットがあります。
数量化Ⅲ類
”数量化Ⅲ類”とは、アンケート質問に対する回答パターンなど複数のデータの特徴から、サンプル相互の距離(似ている度合い)、カテゴリー(回答選択肢)相互の距離を得点化し、サンプルやカテゴリーの特性を分類して解釈する統計手法の一つです。 商品やブランドのポジショニングや、回答者をグループ分けする際などに利用出来ます。
【ワンポイント】活用事例
採用における傾向を分析したい。採用時に重視するポイントを分類し、業種や規模など、企業群別に重視ポイントを解析します。
コレスポンデンス分析
”コレスポンデンス分析”とは、多次元集計されたデータを多次元空間にマッピングして、データ要素同士の関係性を視覚的に表現する統計手法の一つです。
”コレスポンデンス分析とはクロス表の結果をひと目で分かるようグラフに表現する”解析手法です。
【ワンポイント】コレスポンデンス分析メリット
・クロス集計表の解釈が容易になる
・グループ毎の関係性を距離で表現が可能となる
その外にもたくさんありますので、またの機会でご紹介して行きます。t検定では、母分散が等しいと仮定して検定を行うためF検定を行い母分散が果たして正しいのか確認する場合があります。
今回は以上となります。最後まで読んで下さりありがとうございました。
コメント