中央値

英語ではMedian。カタカナで「メジアン」と書かれているものもあります。
データを小さい順(昇順=Ascending Order)または大きい順(降順=Descending Order)に並べ替えたとき、中央の順番にある値のこと。


中央値の求め方

2・3・4・6・7
という5個のデータの場合、合計は22、単純平均値は4.4、中央値は4です。

データの個数が偶数の場合:

2・3・4・6・8・9
という6個のデータの場合、合計は32、単純平均値は5.3、中央値は4と6の単純平均値である5とすることになっています。


このようにデータの個数が少ない場合は良いのですが、多い場合は、次の要領で中央値を求めます。

(1)まずデータの個数(度数)を数える
(2)データの個数が奇数個か偶数個かによって求め方が異なる
・奇数個の場合 ………  (全体の個数+1)÷2 番目
・偶数個の場合 ………  {(全体の個数÷2)+1をした値 }÷2

 例: データの個数が100個の場合、「全体の個数÷2」は50なので、
     「50番目の値+51番目の値」÷2で計算します。


Excel・Googleスプレッドシートで中央値を求める方法

ExcelではMEDIAN関数を使って求めることができます。
Googleスプレッドシートでも同じ関数で求めることができます。
範囲指定した中に空白や文字列のセルが含まれると、データ個数にはカウントされず、無視されて中央値を求めます。


Rで中央値を求める

Rでも次のように求めることができました。
Datasetという名前のデータセットに「data_a」と「data_b」があり、summary関数では「Median」の部分に中央値を出力しています。
numSummary関数では、「50%(第二四分位数)」として表示しています。
drop=FALSEとして、欠損値を除いた結果を出力しています。