【第7回】MacBookProで始めようデータサイエンス ~統計基礎2 ”検定”~

ツール・手法

今日はMacBookProでデータサイエンスを進めて行くシリーズの7回目となります。今回はデータサイエンス、データサイエンティストにとって必須となる”統計基礎2回目”についてご紹介していきます。内容が難しいので、今回は”検定”に絞ってご説明して行きます。是非最後まで読んでいって下さい!

  • 統計とは
  • データの種類と尺度
  • 記述統計
  • 検定
  • 多変量解析
  • 共分散構造分析
  • 生存時間分析

4.検定
 検定は”最初に仮説を立て、実際に起こった結果を確率的に検証し、結論を導く”という手順で進めて行きます。結論を導くには”背理法(はいりほう)”を用います。背理法とは”最初に仮説を設定し、仮説が正しいとした条件で考えて矛盾が起こった場合に仮説が間違っていると判断する”方法のことをいいmす。

帰無仮説と対立仮説
 帰無仮説とは、検定を行うために立てる仮説のことです。検定の最初に立てる仮説のことです。この仮説を元に検定を行って行き結論を導きだします。帰無仮説に対して仮説を”対立仮説”といいます。対立仮説は帰無仮説に対する仮説ことです。本来証明したい仮説のことです。

【参考】
仮説は良く”H”と略されます。このH=hypothesisの略です。帰無仮説:H0、対立仮説:H1とよく記載されます。

P値
 P値とは、帰無仮説が正しいとした仮定とき、観測した事象よりも極端なことが起こる確率のことです。”観測した事象よりも極端な事象が起こる確率”であることから、これは累積確率となっています。
P値はその大小を比較するものではないため、例えばP値が小さいほど差が大きいといったことを意味するわけではありません。ある事象が起こる”確率”を表すものです。あくまでも事前に設定した有意水準(次項で説明)と比較するためものでしかありません。

有意水準と棄却
 帰無仮説を棄却する基準を”有意水準”と言います。有意水準は帰無仮説を棄却するための基準となる確率です。この数値は検定を行う前に決めておく必要があります。別名”危険率”とも呼ばれています。滅多にないと判断される確率が”有意水準”となります。

 棄却は、仮説を捨てることです。P値が有意水準よりも小さい時は、帰無仮説を捨て対立仮説を採択します。すなわち、対立仮説が正しいと結論付けられます。

 P値が有意水準よりも大きい時は、帰無仮説は棄却されません。これは帰無仮説が正しいと結論づけて良いということを意味しません。検定で用いられる方法は”背理法”なので、”帰無仮説が棄却されない”ことは”帰無仮説が正しいと結論づけて良い”ということにはなりません。この場合、”対立仮説が正しいと結論づけることはできない”ということしか言えません。

押させておきたい用語集
t検定
 t検定は、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称です。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらないことを利用しています。2組の標本について平均に有意差があるかどうかの検定などに用いられています。
 
・カイ二乗検定
 一般的に分布の乖離度を測るものでビジネスでは、施策(ABテスト)比較で良く使われています。帰無仮説が正しければ検定統計量が漸近的にカイ二乗分布に従うような統計的検定法の総称です。ピアソンのカイ二乗検定:カイ二乗検定として最もよく利用されています。

・F検定

 t検定は母分散の検定を行います。行う前手の検定として行うことが多くあります。

その外にもたくさんありますので、またの機会でご紹介して行きます。t検定では、母分散が等しいと仮定して検定を行うためF検定を行い母分散が果たして正しいのか確認する場合があります。


今回は以上となります。最後まで読んで下さりありがとうございました。

コメント

タイトルとURLをコピーしました