ロゴ

統計の基本

統計解析

統計の第一歩は平均値・中央値・最頻値!データの特徴をつかむ代表値を理解しよう!

1

統計の基本

簡単にいうと

統計の第一歩は平均値・中央値・最頻値!データの特徴をつかむ代表値を理解しよう!

① 代表値(平均値、中央値[メジアン]、最頻値[モード])

データの特徴を1つの数値で表す指標が代表値です。

代表値定義特徴
平均値(Mean)全データの合計÷データ数外れ値(極端に大きい・小さい値)の影響を受けやすい
中央値(Median)データを大きさ順に並べた真ん中の値外れ値の影響を受けにくい。データ数が偶数の場合は中央2つの平均
最頻値(Mode)最も出現頻度が高い値カテゴリデータにも使える。複数存在する場合もある

年収のように極端に高い値を持つデータでは、平均値よりも中央値の方が実態に近い代表値になることが多いです。

② 散らばり指標(偏差、分散、標準偏差)

代表値だけではデータの散らばり具合がわかりません。散らばりの度合いを示す指標を見ていきましょう。

指標定義ポイント
偏差各データと平均値の差偏差の合計は必ず0になる
分散偏差の2乗の平均値散らばりの大きさを示す。単位が元データの2乗
標準偏差分散の平方根(√分散)元データと同じ単位で散らばりを表現できる

分散の計算式は以下の通りです。

σ2=1ni=1n(xixˉ)2\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

標準偏差はその平方根です。

σ=σ2\sigma = \sqrt{\sigma^2}

標準偏差が大きいほどデータの散らばりが大きく、小さいほどデータが平均値の周りに集中していることを示します。

③ 母集団と標本

用語意味
母集団調査対象となるデータ全体
標本母集団から抽出した一部のデータ
母平均/母分散母集団全体の平均値/分散
標本平均/標本分散標本から計算した平均値/分散
標本数抽出した標本の組数(何回サンプリングしたか)
標本サイズ1つの標本に含まれるデータの個数

「標本数」と「標本サイズ」は混同しやすいですが、意味が異なります。標本数は「何組抽出したか」、標本サイズは「1組に何個のデータがあるか」です。たとえば、100人のアンケートを3回実施した場合、標本数は3、標本サイズは100です。

具体例

平均値と中央値の違いを、具体的な数値で確認してみましょう。

5人の従業員の月給が以下の通りだとします。

25万円、27万円、30万円、32万円、200万円

平均値 = (25 + 27 + 30 + 32 + 200) ÷ 5 = 314 ÷ 5 = 62.8万円

中央値 = データを小さい順に並べて真ん中の値 = 30万円

平均値は62.8万円ですが、これは1人の高額所得者(200万円)に引っ張られた結果で、ほとんどの従業員の実感とかけ離れています。このようなケースでは、中央値の30万円の方が実態をよく表しています。

このように、外れ値がある場合は中央値が有用な代表値となります。

試験のポイント

  • 要は「中央値=データを並べた真ん中の値、最頻値=最も頻度が高い値
  • 標準偏差=分散の平方根」
  • 「標本数」と「標本サイズ」の区別も試験で問われるポイント

独学で診断士合格を目指すなら

過去問演習・AI添削・テキストPDFまで

すべて揃ったプレミアムプランで合格を掴む!

予備校代の1/10以下で、独学の不安をまるごと解決

  • 📝1次試験 過去問演習(全7科目・年度別)無制限プレミアム限定
  • 🤖2次試験 AI添削(事例I〜IV・無制限)最適なフィードバックで実力アッププレミアム限定
  • 📄科目別テキストPDFダウンロード。印刷して好きな使い方で学習できるプレミアム限定
  • 🔖ブックマーク機能で苦手分野・何度も確認したい部分を管理プレミアム限定
  • 📊学習記録・成績管理で自分の進捗を可視化プレミアム限定

プレミアムプラン

¥9,800(税込)

買い切り

自動更新なし / 1年間有効

決済は Stripe(PCI-DSS準拠)で安全に処理されます。カード情報は当サービスに保存されません。