平均値と中央値は、データを要約するための基本的な統計指標ですが、それぞれ異なる特性があります。本記事では、平均値と中央値の違いについて詳しく解説します。
平均値(算術平均)は対象のデータに関して、全ての値を合計し、その合計をデータの数で割ったものです。例えば、5つのデータ {2, 3, 5, 7, 11} の平均値は (2+3+5+7+11)/5 = 5.6 です。平均値はデータ全体の中心的な傾向を把握するのに適していますが、外れ値(極端に大きいまたは小さい値)に影響を受けやすいという欠点があります。
平均値を使うメリット:
- 計算が簡単: 平均値は計算が簡単で直感的に理解しやすいです。そのため、データ分析の初歩的な段階でよく使用されます。
- 統計的手法と連携しやすい: 多くの統計的手法(例えば、分散分析や回帰分析)では平均値を基に計算が行われます。平均値を使用することで、これらの手法を適用しやすくなります。
平均値のデメリット:
- 外れ値に敏感: 極端に大きい値や小さい値が存在する場合、それらの値によって平均値が大きく変動します。例えば、5人の収入額のデータが 30,000円、35,000円、40,000円、45,000円、1,000,000円のとき、平均値は 230,000 円になりますが、この平均値は1,000,000円の値(外れ値)に大きく影響されてしまい、大多数のデータを適切に反映できていません。
- 対称な分布であることが前提: 平均値はデータが対称的に分布している場合には有効な指標ですが、非対称的な分布では適切な中心傾向を示さないことがあります。
中央値は対象のデータに関して、小さい順に並べたときの中央の値です。データの数が奇数の場合、ちょうど中央の値が中央値になります。データの数が偶数の場合、中央の2つの値の平均が中央値となります。例えば、5つのデータ {2, 3, 5, 7, 11} の中央値は 5 になり、6つのデータ {2, 3, 5, 6 ,7, 11}の中央値は(5+6)/2=5.5になります。中央値はデータの分布に対する外れ値の影響を受けにくいため、特に分布が偏っている場合や外れ値が存在する場合に有用です。
中央値を使うメリット:
- 外れ値に強い: 中央値は外れ値の影響を受けにくいため、データに極端な値が含まれていても安定した指標となります。前述の5人の収入額のデータ(30,000円、35,000円、40,000円、45,000円、1,000,000円)の場合、中央値は 40,000円 になり、外れ値の影響を受けることなく、大多数の収入状況をより正確に反映しています。
- 偏りのある分布で有効: データが偏った分布を持つ場合(例えば、右に裾が長い分布など)、中央値はデータの中心的な傾向をより適切に表します。
中央値のデメリット:
- 計算が煩雑: 対象のデータ数が非常に多い場合では、中央値を計算するためにデータをソートする必要があるため、計算が煩雑になることがあります。
- 統計的手法と連携しにくい: 一部の統計的手法(例えば、分散分析や回帰分析)では中央値を直接利用することが難しい場合があります。
具体例:
- 家の価格: ある都市の住宅市場を考えた場合、住宅価格の高い豪邸がいくつか存在することで平均価格が大きく引き上げられる可能性があります。このような場合、中央値の方が典型的な住宅価格を示すのに適していると考えられます。
- テストの点数: クラスのテストの点数を考えると、一部の生徒が非常に高い点数、もしくは低い点数を取得することがあります。平均点はこれらの極端な点数に影響されやすいですが、中央値はクラスの大多数の学力を反映しやすいです。
結論として、平均値と中央値はそれぞれ異なる特性を持つため、データの特性や分析の目的に応じて使い分けることが重要です。平均値はデータが対称的で外れ値が少ない場合に有効であり、中央値はデータが非対称的で外れ値が存在する場合に有効です。両方の指標を併用することで、データの全体像をより正確に理解することができます。
本メディアの記事等の内容には細心の注意を払っておりますが、正確性を保証するものではありません。もし記事内に誤りや不正確な情報がございましたら、こちらのお問い合わせフォームよりご連絡ください。
当メディアは、読者の皆様からのご指摘を大切にし、内容の見直しや修正を行うことで、より有益な記事を提供していく所存です。皆様のご理解とご協力をお願いいたします。