単純平均値
単純平均値、相加平均値、算術平均値はいずれも、ここで説明する「平均値」のことです。
対象となるデータ(変数)について1行(1つ)ずつすべての値を合計して、データの個数(行数)で割り算した値。
式で表すと次のようになります。次のどちらも同じ意味です。
すなわち次の式で表わすこともできます。
(1番目のデータ+2番目のデータ+3番目のデータ+……+最後のデータ)÷「デーの個数」
「」は「エックスバー」と読み、データの単純平均値を意味します。
ギリシャ語で μ(ミュー)とも表します。英語の「m」に相当し、統計学ではμの方がより使われることがあります。
なお他にも平均値と呼ぶ指標があり、それと区別するため、単純平均値(たんじゅんへいきんち)の他に、相加平均値(そうかへいきんち)、算術平均値(さんじゅつへいきんち)という呼び方もあります。
→ 幾何平均値
単純平均値の主な注意点
- 外れ値に大きく左右されます。
外れ値(Outlier=極端に大きな/小さな値)がデータに含まれていると、単純平均値は大きく影響を受けます。 - 平均値は必ずしも多勢を表わす指標とは限りません。
- 全体の半数を表す指標とも限りません。
上述をまとめると、単純平均値にデータの分布の情報は含まれないということに注意が必要です。
ヒストグラムをはじめ、データの分布を別途探る必要があります。
【例1】
A店とB店の平均客単価を比べると、A店が8,000円、B店が5,000円だったとき、この情報だけでは「A店のほうが総じて客単価が高い」のかどうかはわかりません。
【例2】
500人を対象にした調査で、1日あたりのペットボトルの平均消費量が1本と求められたとき、この情報だけでは「みんなが総じて1本消費している」かどうかはわかりません。
Excel・Googleスプレッドシートで単純平均値を求める方法
ExcelとGoogleスプレッドシートでは、単純平均値をAVERAGE関数で求めることができます。
Googleスプレッドシートでも同じ関数で求めることができます。
範囲指定した中に空白や文字列のセルが含まれると、データ個数にはカウントされず、無視されます。
この場合は合計がが15、空白セルや文字列を含む5つのセルを範囲選択したら、データ個数は4とカウントされ、単純平均値は 11 ÷ 4 = 2.75と出力されます。

Rで単純平均値を求める
Rの場合、平均値(mean)はdata_aが3、data_bが2.75と表示されています。
文字列を含む列(ここではdata_c)では、文字列のデータとして認識されています。

S-PLUSではdata_cは文字列(Data Typeを「character」とする)にしないと「aa」と入力・認識できません。
その上で、data_aは平均値が3、data_bは平均値が2.75と表示されました。

度数分布表からおおよその平均値を求める
度数分布表を基におおよその平均値を求める場合は、「階級値」と「度数」から、おおよその平均値を求める方法があります。
階級(身長の場合) | 階級値 | 度数 |
---|---|---|
130cm以上140cm未満 | 135cm | 2 |
140cm以上 150cm未満 | 145cm | 6 |
150cm以上 160cm未満 | 155cm | 8 |
160cm以上 170cm未満 | 165cm | 4 |
170cm以上 180cm未満 | 175cm | 2 |
- 130cm以上 140cm未満の階級の場合、階級値(かいきゅうち)を135cmとします。
- 130cm以上 140cm未満の階級が2人なので、135 × 2を計算します。
- この要領で140cm以上 150cm未満の階級についても計算をします(145 × 6)。
- 150cm以上160cm未満の階級(155 × 8)、160~170cm(165 × 4)、170~180cm(175 × 2)と計算をし、すべて合計します(135 × 2 + 145 × 6 + 155 × 8 + 165 × 4 + 175 × 2 = 3,390)
- 全体の度数(つまり全体の人数)で割り算したものを、度数分布表から平均値とします
(3,390 ÷ 22 ≒ 154.09)。