記述統計学

Descriptive Statistics

手元にあるデータを要約して、そのデータの特徴を記述する統計(学)のことです。
データの要約とは、データについて、次のような値を求めたり、グラフを描くことで、データが表わす傾向を探ります。
記述統計学に対して、推測統計学もあります。

  • 代表値 (Representative Value)
    • 平均値 (Average、Mean) → 単純平均値
    • 中央値
    • 最頻値
    • 最大値
    • 最小値
  • 散布度 (Dispersion)
    • 範囲(レンジ)
    • 分散
    • 標準偏差
    • 四分位数
    • 歪度
    • 尖度

……など

これらの値を総称して、基本統計量(Basic Statistics)とか記述統計量(Descriptive Statistics)、要約統計量(Summary Statistics)と呼びます。


Excelでは「データ分析」メニューから「基本統計量」で求めることもできます。


Rではsummaryコマンドで最小値・第一四分位数・中央値・単純平均値・第三四分位数・最大値を出力します。

「psych」パッケージをRにインストールすることで、describeコマンドで、データの個数、単純平均値、不偏標準偏差、中央値、トリム平均、中央絶対偏差、最小値、最大値、レンジ、歪度、尖度、標準誤差 を表示します。
data_cは名義尺度のデータ(カテゴリーデータ)のため、データ個数は5個として扱っているため要注意であることを示しています。


S-PLUSでは、「統計(S)」→「データサマリー(D)」→「統計量(S)」で、最小値、第一四分位数、単純平均値、中央値、第三四分位数、最大値、データ個数、欠損値の個数、不偏標準偏差を出力します。
出力の対象に、カテゴリーデータ(data_c)は含まれません。