単純平均値

単純平均値、相加平均値、算術平均値はいずれも、ここで説明する「平均値」のことです。

すなわち次の式で表わすこともできます。

(1番目のデータ+2番目のデータ+3番目のデータ+……+最後のデータ)÷「デーの個数」

」は「エックスバー」と読み、データの単純平均値を意味します。
ギリシャ語で μ(ミュー)とも表します。英語の「m」に相当し、統計学ではμの方がより使われることがあります。

なお他にも平均値と呼ぶ指標があり、それと区別するため、単純平均値(たんじゅんへいきんち)の他に、相加平均値(そうかへいきんち)、算術平均値(さんじゅつへいきんち)という呼び方もあります。

幾何平均値


単純平均値の主な注意点

  1. 外れ値に大きく左右されます。
    外れ値(Outlier=極端に大きな/小さな値)がデータに含まれていると、単純平均値は大きく影響を受けます。
  2. 平均値は必ずしも多勢を表わす指標とは限りません。
  3. 全体の半数を表す指標とも限りません。

上述をまとめると、単純平均値にデータの分布の情報は含まれないということに注意が必要です。
ヒストグラムをはじめ、データの分布を別途探る必要があります。

【例1】
A店とB店の平均客単価を比べると、A店が8,000円、B店が5,000円だったとき、この情報だけでは「A店のほうが総じて客単価が高い」のかどうかはわかりません。

【例2】
500人を対象にした調査で、1日あたりのペットボトルの平均消費量が1本と求められたとき、この情報だけでは「みんなが総じて1本消費している」かどうかはわかりません。


Excel・Googleスプレッドシートで単純平均値を求める方法

ExcelとGoogleスプレッドシートでは、単純平均値をAVERAGE関数で求めることができます。
Googleスプレッドシートでも同じ関数で求めることができます。

範囲指定した中に空白や文字列のセルが含まれると、データ個数にはカウントされず、無視されます。
この場合は合計がが15、空白セルや文字列を含む5つのセルを範囲選択したら、データ個数は4とカウントされ、単純平均値は 11 ÷ 4 = 2.75と出力されます。


Rで単純平均値を求める

Rの場合、平均値(mean)はdata_aが3、data_bが2.75と表示されています。
文字列を含む列(ここではdata_c)では、文字列のデータとして認識されています。

S-PLUSではdata_cは文字列(Data Typeを「character」とする)にしないと「aa」と入力・認識できません。
その上で、data_aは平均値が3、data_bは平均値が2.75と表示されました。


度数分布表からおおよその平均値を求める

度数分布表を基におおよその平均値を求める場合は、「階級値」と「度数」から、おおよその平均値を求める方法があります。

階級(身長の場合)階級値度数
130cm以上140cm未満135cm2
140cm以上 150cm未満145cm6
150cm以上 160cm未満155cm8
160cm以上 170cm未満165cm4
170cm以上 180cm未満175cm2

  1. 130cm以上 140cm未満の階級の場合、階級値(かいきゅうち)を135cmとします。
  2. 130cm以上 140cm未満の階級が2人なので、135 × 2を計算します。
  3. この要領で140cm以上 150cm未満の階級についても計算をします(145 × 6)。
  4. 150cm以上160cm未満の階級(155 × 8)、160~170cm(165 × 4)、170~180cm(175 × 2)と計算をし、すべて合計します(135 × 2 + 145 × 6 + 155 × 8 + 165 × 4 + 175 × 2 = 3,390)
  5. 全体の度数(つまり全体の人数)で割り算したものを、度数分布表から平均値とします
    (3,390 ÷ 22 ≒ 154.09)。

Σ記号(シグマ記号)
中央値