中央値
英語ではMedian。カタカナで「メジアン」と書かれているものもあります。
データを小さい順(昇順=Ascending Order)または大きい順(降順=Descending Order)に並べ替えたとき、中央の順番にある値のこと。
中央値の求め方
2・3・4・6・7
という5個のデータの場合、合計は22、単純平均値は4.4、中央値は4です。
データの個数が偶数の場合:
2・3・4・6・8・9
という6個のデータの場合、合計は32、単純平均値は5.3、中央値は4と6の単純平均値である5とすることになっています。
このようにデータの個数が少ない場合は良いのですが、多い場合は、次の要領で中央値を求めます。
(1)まずデータの個数(度数)を数える
(2)データの個数が奇数個か偶数個かによって求め方が異なる
・奇数個の場合 ……… (全体の個数+1)÷2 番目
・偶数個の場合 ……… {(全体の個数÷2)+1をした値 }÷2
例: データの個数が100個の場合、「全体の個数÷2」は50なので、
「50番目の値+51番目の値」÷2で計算します。
Excel・Googleスプレッドシートで中央値を求める方法
ExcelではMEDIAN関数を使って求めることができます。
Googleスプレッドシートでも同じ関数で求めることができます。
範囲指定した中に空白や文字列のセルが含まれると、データ個数にはカウントされず、無視されて中央値を求めます。
Rで中央値を求める
Rでも次のように求めることができました。
Datasetという名前のデータセットに「data_a」と「data_b」があり、summary関数では「Median」の部分に中央値を出力しています。
numSummary関数では、「50%(第二四分位数)」として表示しています。
drop=FALSEとして、欠損値を除いた結果を出力しています。