今日はMacBookProでデータサイエンスを進めて行くシリーズの6回目となります。今回はデータサイエンス、データサイエンティストにとって必須となる”統計基礎”についてご紹介していきます。なるべく数式は使わず説明していきます。是非最後まで読んでいって下さい!
- 統計とは
- データの種類と尺度
- 記述統計
- 検定
- 多変量解析
- 共分散構造分析
- 生存時間分析
1.統計とは
統計とは、対象となるデータを基に、その特性を数量的に捉えたり、母数からサンプルを抜き出して全体を推測することを言います。大きく分けると2種類あります。対象データから表やグラフを作成したり、平均や傾向を見ることでデータの特徴を把握するという統計を”記述統計”といいます。もう一方は、母集団からサンプルを抜き取って、そのサンプルの特性から母集団の特性を推測し、それが正しいかどうかを検定する統計を”推測統計”といいます。
2.データの種類と尺度
データには様々な種類が存在します。例えば性別、血液型、成績順位などの余り意味をなさない”質的データ”と、売上金額、件数などの数値の大小に意味のある”量的データ”の2種類に分類されます。
さらに言うと質的データは、名義尺度と順序尺度に分類され、量的データは、間隔尺度と比率尺度に分類されます。
2-1.名義尺度
名義尺度は、商品カテゴリー、性別分類など、対象がもつ属性を何種類かに「分類」した尺度です。
分類分けしだけのため数値であっても等しいか等しくないかについては意味がありますが、この数字の計算に意味はありません。同じ値であるかどうかにのみ意味があります。度数や最頻値に利用できます。
2-2.順序尺度
順序尺度は、成績、好みの順位など、対象間に「順序」をつけることができる尺度です。意味をもつのは順番だけです。順序尺度の間隔の差、比などに意味はありません。度数、最頻値、中央値、四分位数に利用できます。
2-3.間隔尺度
間隔尺度は、知能指数、気温など目盛が等間隔である尺度です。絶対的な原点がありませんので、尺度間の和差には意味がありますが、比には意味はありません。度数、最頻値、中央値、四分位数、平均、標準偏差に利用できます。
2-4.比率尺度
比率尺度は、身長・体重、売上高など、絶対的な原点が存在する尺度です。従って、四則演算すべてに意味があります。値0が絶対的な意味を持ち、比に意味があります。度数、最頻値、中央値、四分位数、平均、標準偏差、変動係数、幾何平均に利用できます。
3.記述統計
要約統計量について説明していきます。
3-1.分散
データのバラツキの程度を表します。各データと平均値の差を二乗し合計したものを自由度で割って求めます。データにおいて、平均値から離れた値が多いほど、分散が大きくなります。
3-2.標準偏差
分散の平方根です。データの平均値周辺のバラツキの程度を表します。偏差とは、データの平均値からの差を指します。
3-3.中央値(メディアン)
データを大きさの順に並べたときの中央にあるデータです。
3-4.切り落とし平均
データを大きさの順に並べ、上下10%の値の除いたときの平均値です。
3-5.歪度(わいど)・尖度(せんど)
分布が正規分布からどれだけ逸脱しているかを示します。
歪度は、分布が左にずれて裾が右に伸びているときは正の値を、右にずれて裾が左に伸びているときは負の値となり、正規分布のとき0になります。尖度は、山の尖度と裾の広がりの度合いを示します。
3-6.標準誤差
標本平均の標準偏差(バラツキ)を指し、標準偏差を標本の大きさ(サンプルサイズ)の平方根で割ることにより求められます。標本から得られる推定量そのもののバラツキを表します。
3-7.正規性の検定
データの母集団が正規分布に従うかどうかについて検定します。
今回は以上となります。最後まで読んで下さりありがとうございました。
コメント