今日はMacBookProでデータサイエンスを進めて行くシリーズの8回目となります。今回はデータサイエンス、データサイエンティストにとって必須となる”統計基礎”についてご紹介していきます。今回は”多変量解析(前編)”を扱います。是非最後まで読んでいって下さい!
- 統計とは
- データの種類と尺度
- 記述統計
- 検定
- 多変量解析(前編)
- 共分散構造分析
- 生存時間分析
5.多変量解析
多変量解析とは、対象データから得られたお互いに関連のある様々なのデータ(変数、変量)を総合的に要約したり、将来の数値を予測したりといった統計解析手法の一つです。多変量解析は、特定の分析方法を指すわけではなく、主成分分析、重回帰分析、クラスター分析など、数多くの統計解析、機械学習のアルゴリズムが含まれます。
マーケティングにおいても良く使われており、来店数予測、な将来の売上予測したり、顧客+販売データから顧客を特性が似たグループに分けたりといった目的など様々な用途で使われています。
【多変量解析の代表的な分析手法】
1.予測をしたい場合の多変量解析手法について、以下まとめたものです。
統計解析手法 | 目的変数(X) | 説明変数 | 備考 |
重回帰分析 | 量的データ | 質的データ | |
ロジスティック回帰分析 | 質的データ | 質的データ | |
判別分析 | 質的データ | 質的データ | |
数量化Ⅰ類 | 量的データ | 質的データ | |
コンジェイント分析 | 質的データ | 質的データ | |
数量化Ⅱ類 | 質的データ | 質的データ |
重回帰分析
”重回帰分析”とは、複数(2つ以上)説明変数が入っており、複数の要因(説明変数)のうち、どの変数がどの程度、結果を左右しているのかを関数の形で数値化し両者の関係を表しながら、未来の予測を行う統計手法の一つです。
ロジスティック回帰分析
”ロジスティック回帰分析”は、いくつかの要因(説明変数)から”2値の結果(目的変数)”が起こる確率を説明・予測”→”ある事象の発生確率を説明・予測”する統計手法の一つです。
2値とは、癌(がん)の有無のように答えが2つしかない値のことを言います。
判別分析
”判別分析”とは、いくつかのグループ(群、カテゴリ)に分かれているデータを元に、それらが”どういう基準で分けられているのか”という関係を解析することで、分類されていないサンプルがどちらのグループに属するかを予測する統計手法の一つです。
数量化Ⅰ類
”数量化Ⅰ類”とは、カテゴリーデータを説明変数としながら、目的変数を導き出す統計手法の一つです。 一見因果関係がなさそうな要素から将来を予想するような際に使用します。
※とても扱いが難しいです。
コンジェイント分析
”コンジェイント分析”とは、商品やサービスの”どこ”を”どの程(例えば商品のスペック”変更すれば、顧客に気に入ってもらえるのかを明らかにする商品開発などにも活用できる統計手法の一つです。 一見因果関係がなさそうな要素から将来を予想するような際に使用します。
数量化Ⅱ類
”数量化Ⅱ類”とは、
判別分析と非常によく似た手法です。目的変数のデータ形態は判別分析と同じカテゴリーデータです。説明変数のデータ形態は、判別分析が数量データであるのに対し、数量化Ⅱ類はカテゴリーデータです。数量化Ⅱ類は、目的変数と説明変数との関係を調べて関係式を作成し、その関係式を用いて次のことを明らかにする手法です。
【参考】数量化Ⅱ類の流れ
① 説明変数カテゴリーと目的変数カテゴリーとの関連性を確認します。
② 説明変数の重要度をランキング化します。
③予測(判別)します。
その外にもたくさんありますので、またの機会でご紹介して行きます。t検定では、母分散が等しいと仮定して検定を行うためF検定を行い母分散が果たして正しいのか確認する場合があります。
今回は以上となります。最後まで読んで下さりありがとうございました。
コメント