統計の基本
統計解析
統計の第一歩は平均値・中央値・最頻値!データの特徴をつかむ代表値を理解しよう!
統計の基本
簡単にいうと
統計の第一歩は平均値・中央値・最頻値!データの特徴をつかむ代表値を理解しよう!
① 代表値(平均値、中央値[メジアン]、最頻値[モード])
データの特徴を1つの数値で表す指標が代表値です。
| 代表値 | 定義 | 特徴 |
|---|---|---|
| 平均値(Mean) | 全データの合計÷データ数 | 外れ値(極端に大きい・小さい値)の影響を受けやすい |
| 中央値(Median) | データを大きさ順に並べた真ん中の値 | 外れ値の影響を受けにくい。データ数が偶数の場合は中央2つの平均 |
| 最頻値(Mode) | 最も出現頻度が高い値 | カテゴリデータにも使える。複数存在する場合もある |
年収のように極端に高い値を持つデータでは、平均値よりも中央値の方が実態に近い代表値になることが多いです。
② 散らばり指標(偏差、分散、標準偏差)
代表値だけではデータの散らばり具合がわかりません。散らばりの度合いを示す指標を見ていきましょう。
| 指標 | 定義 | ポイント |
|---|---|---|
| 偏差 | 各データと平均値の差 | 偏差の合計は必ず0になる |
| 分散 | 偏差の2乗の平均値 | 散らばりの大きさを示す。単位が元データの2乗 |
| 標準偏差 | 分散の平方根(√分散) | 元データと同じ単位で散らばりを表現できる |
分散の計算式は以下の通りです。
標準偏差はその平方根です。
標準偏差が大きいほどデータの散らばりが大きく、小さいほどデータが平均値の周りに集中していることを示します。
③ 母集団と標本
| 用語 | 意味 |
|---|---|
| 母集団 | 調査対象となるデータ全体 |
| 標本 | 母集団から抽出した一部のデータ |
| 母平均/母分散 | 母集団全体の平均値/分散 |
| 標本平均/標本分散 | 標本から計算した平均値/分散 |
| 標本数 | 抽出した標本の組数(何回サンプリングしたか) |
| 標本サイズ | 1つの標本に含まれるデータの個数 |
「標本数」と「標本サイズ」は混同しやすいですが、意味が異なります。標本数は「何組抽出したか」、標本サイズは「1組に何個のデータがあるか」です。たとえば、100人のアンケートを3回実施した場合、標本数は3、標本サイズは100です。
具体例
平均値と中央値の違いを、具体的な数値で確認してみましょう。
5人の従業員の月給が以下の通りだとします。
25万円、27万円、30万円、32万円、200万円
平均値 = (25 + 27 + 30 + 32 + 200) ÷ 5 = 314 ÷ 5 = 62.8万円
中央値 = データを小さい順に並べて真ん中の値 = 30万円
平均値は62.8万円ですが、これは1人の高額所得者(200万円)に引っ張られた結果で、ほとんどの従業員の実感とかけ離れています。このようなケースでは、中央値の30万円の方が実態をよく表しています。
このように、外れ値がある場合は中央値が有用な代表値となります。
試験のポイント
- ・要は「中央値=データを並べた真ん中の値、最頻値=最も頻度が高い値
- ・標準偏差=分散の平方根」
- ・「標本数」と「標本サイズ」の区別も試験で問われるポイント
独学で診断士合格を目指すなら
過去問演習・AI添削・テキストPDFまで
すべて揃ったプレミアムプランで合格を掴む!
予備校代の1/10以下で、独学の不安をまるごと解決
- 📝1次試験 過去問演習(全7科目・年度別)無制限プレミアム限定
- 🤖2次試験 AI添削(事例I〜IV・無制限)最適なフィードバックで実力アッププレミアム限定
- 📄科目別テキストPDFダウンロード。印刷して好きな使い方で学習できるプレミアム限定
- 🔖ブックマーク機能で苦手分野・何度も確認したい部分を管理プレミアム限定
- 📊学習記録・成績管理で自分の進捗を可視化プレミアム限定
プレミアムプラン
¥9,800(税込)
自動更新なし / 1年間有効
決済は Stripe(PCI-DSS準拠)で安全に処理されます。カード情報は当サービスに保存されません。