統計用語集 分析手法一覧へ ニューラルネット用語(日英対訳)へ
赤池情報量基準
一対比較法
移動平均
直交表
直交表
Excelのグラフ機能
(データマイニングにおける)Excelの5大機能
円グラフ
折れ線グラフ
回帰係数
カイ自乗検定における自由度
間隔尺度
記述統計学
基本統計量
近似曲線
クラスター分析
クロス表
計画行列
工程能力指数

最小自乗法
最適な回帰モデル
最適な回帰モデル作成法
最頻値(モード)
3元配置実験計画
散布図
シグマ
実験計画法
重回帰式
重相関係数
順序尺度
推測統計学
ステレオグラム
数量化理論T類
数量化理論II類
説明変数選択規準
尖度
相関の有無のt検定
相関の有無を判定する簡便法
相関係数
ソルバー

タグチメソッド
多元配置実験計画
多重共線性
ダミー変数
単回帰式
代表値
縦棒グラフ
中央値(メディアン)
直交表
データウェアハウス
データ工学
データマイニング
 2元配置実験計画
 ノンパラメトリックな検定
外れ値
ばらつき
パラメトリックな検定
パレート図
ヒストグラム
ピボットテーブル(Excel)
標準化
標準偏差
標本
標本サイズの決定法
比例尺度
品質工学
分析ツール(Excel)
平均値
偏差値
母集団
母数と統計量
マルチコ
名義尺度
要因計画法 レンジ(範囲)
ロジット曲線
y切片
歪度

赤池情報量規準 AIC (Akaike Information Criterion)

赤池弘次博士が考案。当てはまりのよさを追求するあまり、複雑なモデルを多用するのではなく、ケチの原理から、より簡易なモデルを利用するために採用される、当てはまりの良さを示す指標の1つ。AICが最小となるモデルが最適。
SPSSやS-PLUSなど多くの統計解析専用ソフトでも出力される。

なお、重回帰分析におけるAICは次の通りである。



[説明変数選択規準Excelアドインツール 50B 「最適な回帰モデル」]


一対比較法(いっついひかくほう)  Method of Paired Comparison
2者のうち、どちらが良いか1つを選ぶ比較的簡単な設問でアンケートなどに多用されている。
Excel回帰分析でもデータ解析が可能である。

[AHP法、Excel用アドインプログラム「一対比較法プログラム」]

移動平均

時系列データなどで、増減の激しいデータでも、移動平均を求め、それをグラフに表すことによって、データは平均化され、傾向をつかむことが容易になる。

移動平均は、手作業でも簡単に求めることができる。

例: 4区間の移動平均を求める(移動平均を求める対象を、4区間ずつとする)場合

手順1) 一番古いデータから一定の期間の平均値(単純平均)を求める

例の場合は、4区間の移動平均を求めるので、1番目〜4番目のデータの平均値を求める。

日ごとのデータであれば、1日目〜4日目のデータについて、平均値を求める。
月ごとならば、1月目〜4月目のデータについて平均値を求めることになる。

手順2) 順に1データずつ新しい方向にずらし、同様に平均値を求める

手順3) 手順2を、直近の平均値が求められるまで繰り返す

手順4) グラフに表す


Excelでは、グラフ・ウィザードの折れ線グラフなどから、「近似曲線の追加」機能で、移動平均線を追加することができる。
(移動平均値を求めることはできない)

[単純平均Excel用アドインプログラム「移動平均プログラム」


直交表
以下のような表をL直交表と呼ぶ。
No.:
1列:
2列:
3列:
1
1
1
1
2
1
2
2
3
2
1
2
4
2
2
1


実験計画法なら、要因が3つ、実験回数が4回のデータをこれに当てはめることができる。
のLは「ラテン方格(Latin Square)の略。4は、行数を表している。

ちなみに、このL直交表は、上表の「2」を−1に置き換えて考えることで、直交表の成り立ち(割付の要領)が理解できる。

No.:
1列:
2列:
3列:
1
1
1
1
2
1
-1
-1
3
-1
1
-1
4
-1
-1
1
a
b
a×b



直交表は、実験計画法(要因計画法)で用いられる、できるだけ少ないデータ(実験回数)から、より多くの情報を得るのに役立つ。

実験計画法要因計画法直交表計画行列タグチメソッドExcel用アドインプログラム「直交表作成プログラム」Excel用アドインプログラム「超らく解析プログラム」Excel用アドインプログラム「影響度分析プログラム」


直交表
以下のような表をL直交表と呼ぶ。
No.:
1列:
2列:
3列:
4列:
5列:
6列:
7列:
1
1
1
1
1
1
1
1
2
1
1
1
2
2
2
2
3
1
2
2
1
1
2
2
4
1
2
2
2
2
1
1
5
2
1
2
1
2
1
2
6
2
1
2
2
1
2
1
7
2
2
1
1
2
2
1
8
2
2
1
2
1
1
2


実験計画法(要因計画法)で、要因(因子)と水準を割り付けるのに用いられる。
多元配置実験計画法に比べて、実験回数は少ない。
2水準の要因が7つある7元配置実験計画法の場合の実験回数は、2=128回となる。

ちなみに、このL直交表は、上表の「2」を−1に置き換えて考えることで、直交表の成り立ち(割付の要領)が理解できる。

No.:
1列:
2列:
3列:
4列:
5列:
6列:
7列:
1
1
1
1
1
1
1
1
2
1
1
1
-1
-1
-1
-1
3
1
-1
-1
1
1
-1
-1
4
1
-1
-1
-1
-1
1
1
5
-1
1
-1
1
-1
1
-1
6
-1
1
-1
-1
1
-1
1
7
-1
-1
1
1
-1
-1
1
8
-1
-1
1
-1
1
1
-1
a
b
a × b
c
a × c
b × c
a × b × c

直交表は、実験計画法(要因計画法)で用いられる、できるだけ少ないデータ(実験回数)から、より多くの情報を得るのに役立つ。

実験計画法要因計画法直交表計画行列タグチメソッドExcel用アドインプログラム「直交表作成プログラム」Excel用アドインプログラム「超らく解析プログラム」Excel用アドインプログラム「影響度分析プログラム」

Excelのグラフ機能
Excelの5大機能の1つ。
用途に応じてどのグラフを使い分けるかを考えるのが重要。
常に基データ(グラフ作成用データ)とグラフは連動しており、描画されたグラフ(棒グラフならその長さ)を変更すると、基データもその変化に応じて数値が変更される。

円グラフ折れ線グラフ3−D(スリーディー)縦棒グラフ

(データマイニングにおける)Excelの5大機能
データマイニングの一貫した作業がExcel上でできることから、次のように定義する。

・グラフ機能
・ピボットテーブル機能
・分析ツール
・統計関数
・ソルバー

特に分析ツールやソルバーは、ぜひ活用したい機能である。

なお、一般にExcelの4大機能または5大機能のようにして挙げられる事柄としては、表計算機能・グラフ機能・集計機能・分析機能・文書作成機能などがある。これらの機能は、データ周りの一連の作業がExcelで可能になることを示している。
もっとも、統計解析の分野では専用ソフト(SPSSやS-PLUS等)に、文書作成ならばワープロソフト(Wordや一太郎等)にはかなわない。

Excelのグラフ機能分析ツールソルバー

円グラフ
円グラフは、比率(全体を100%とし何%あったか)を把握するのにすぐれたグラフ。
データ要素が少ないときには特に有効。また、データ要素が多い場合でも、データ数値の差が大きい時には有効だが、そうでない場合にはグラフ化しても差が分かりづらく、視覚化の効果が得られない場合がある。

折れ線グラフ
時系列データの変化を見るときにより有効なグラフ。
Excelのグラフ・ウィザードで簡単に折れ線グラフが描ける。

回帰係数

回帰式の中で、が1増える(または減る)と、がいくつ増える(減る)かを表すものが、回帰係数である。

次の式で、bが回帰係数にあたる。 xが1増えると、yがb増える、という意味になる。

【参考】

単回帰式: 
 

重回帰式: 
 
kは説明変数の個数を示す。説明変数の個数まで式が続くことを意味する。

[単回帰式、重回帰式、回帰係数、Excelアドインツール 501 「拡張回帰分析プログラム」Excelアドインツール 501 「拡張回帰分析プログラム」


カイ自乗検定における自由度

一般に、m行×l列の検定の自由度は、

  

となる。

2行×3列の表の場合は、(2−1)(3−1)で、自由度は2となる。(掛け算の記号は省略している)

2行×3列の自由度が2となる詳しい説明は以下の通り。

        合計
  5 8 12 25
  10 20 18 48
合計 15 28 30 73

それぞれの合計値を基に、5と8の数字さえわかってしまえば、その他の12、10、20、18は無くても求めることができる、つまり合計値を基に、最低限必要なのは5と8(もちろん8と12や10と20でも良い)の2個だけで充分、すなわち、自由度=2というようになる。
別の言い方をするなら、自由度とは、情報の個数である。

[t検定における自由度、データマイン君]


間隔尺度

数字の中で、日付・時刻(時間ではない)や気温、がこれにあたる。
5度は10度の2分の1、20度は10度の2倍、というように比率を求めることに意味は無いが、「今日の最高気温は28度で、昨日よりも6度高い。」というように、差を求めることに意味はある。数の大小にも意味を持つ。

名義尺度順序尺度比例尺度


記述統計学

データを要約して、そのデータの特徴を記述する統計(学)のこと。
データの要約とは、データについて、次のような値をもとめることである。
記述統計学に対して、「推測統計学」がある。

 ・平均値中央値最頻値標準偏差、最大値、最小値、範囲(レンジ)…など

推測統計学基本統計量、データの要約、平均値中央値最頻値標準偏差


基本統計量

データを要約するときに使用する種々の統計量。平均値(単純平均、幾何平均、調和平均)中央値(メディアン)、最頻値(モード)、標準偏差などがある。Excelでは分析ツールの基本統計量を選択すると、一度に求めることができる。

推測統計学基本統計量、データの要約、平均値中央値最頻値標準偏差


近似曲線
折れ線グラフや散布図に追加する線。追加することで、データの増減の傾向を見ることができる。
Excelのグラフ機能でサポートしている曲線(直線)には、線形近似、対数近似、多項式近似、べき乗近似、指数近似、移動平均がある。
これらの遣い分け方は、データの傾向により使い分ける必要がある。
また、闇雲に当てはめればよいというものでもない。

クラスター分析

多変量解析手法の1つ。
フラットな表データをクラスター分析プログラムにかけることで、データ全体を4グループ・3グループ・2グループにグループ化することができる。
データマイニングで多用されている結果は、わかりやすい「デンドログラム(樹状図)」で表示させることが多い。
統計解析ソフトS-PLUSなどで実行することができる。

また、クラスター分析は他の多変量解析手法と連動して用いると良い。

例1)
クラスター分析でデータを3グループに分けたとして、更に判別分析を適用し、グループ化に貢献している説明変数の判別関数の係数を吟味することで、3グループの特徴が明確になることが多い。

例2)
双対尺度法(対応分析)の結果をクラスター分析にかけてグループ化を明確にすることもできる。

[多変量解析、データマイニング、グループ化、デンドログラム、Excel用アドインプログラム「クラスター分析プログラム」


クロス表
分割表ともいう。属性の数により2重クロス表、3重クロス表、…がある。Excelでは、クロス表を求める場合、ピボット・テーブルを使う。クロス表のより高度な分析には、カイ自乗検定や双対尺度法などが有効である。

計画行列

実験の計画をあらわした表のこと。次のような表のことを「計画行列」と呼ぶ。

温度:
触媒:
生成量:
10℃
380
20℃
420
30℃
350
10℃
460
20℃
490
30℃
440

このようなデータから、要因(この場合は「温度」と「触媒」)の違いにより生成量を求めるモデルをExcelで簡単に求めることができる。
なお、Excel用アドインツール「超らく解析」を利用すれば、Excelの手作業で行うような面倒な作業を省き、簡単に分析ができる。

2元配置実験3元配置実験Excel用アドインプログラム「超らく解析プログラム」Excel用アドインプログラム「影響度分析プログラム」


工程能力指数

工程能力指数(CP)は、特に工業の品質管理でしばしば使用され、皇帝の維持管理改善に用いられている。
式は次のようになる。

●上側規格のみがある場合:



●下側規格 のみが有る場合:


●両側に規格がある場合:
(a)
(b)
  

【参考】



(1) Cp ≧ 1.33 (1.33以上)なら、工程能力は充分
(2) 1.33 > Cp ≧ 1 (1以上1.33未満)なら、工程能力は良い
(3) Cp < 1 (1未満)なら、工程能力は不足していると判断します。


最小自乗法
散布図の各マーカーから直線まで縦軸と平行に線を引く。この線分(誤差・残差)を自乗すると正方形の面積になる。正方形の面積の和が最小になるように、回帰式のaとbを決定する方法。
線分の長さを最小にするよりも数学的に扱いやすいため、この方法が採られている。(平均すると0に近くなり、自乗することで全ての差が正の値になる)


最適な回帰モデル

説明変数の中で、本当にyに対して効いているもので、過不足なく回帰モデルを構成することがポイントである。ケチの原理といって、出来るだけ少ない説明変数で回帰モデルを作るべきである。
最適な回帰モデルを求めてから、予測と要因分析を行う。

[Excelアドインツール 50B 「最適な回帰モデル」]

最適な回帰モデル作成法
EXCELの回帰分析ツールを用いて、説明変数減少法により、最適な回帰モデルを求める。
まず、すべてのアイテムを用いて回帰分析を実行し、P-値(危険率)が最大な説明変数を減らして、再度、回帰分析を実行する。アイテムが一つになるまで繰り返す。モデルの候補の中で、説明変数選択規準 が最大のものを最適なモデルとする。

上田の規準:

×(データ数+説明変数の個数+1)/(データ数−説明変数の個数−1)
R: 重相関係数

Excelアドインツール 50B 「最適な回帰モデル」重相関係数

最頻値(モード)
最頻値とはファッションモードのモードと同じように、最も多い数字のこと。4,6,8,8,8,9,9,10,11,13の最頻値は8。
Excelでは、MODE関数で簡単に求められる。しかしこのMODE関数では、最頻値が2つ以上存在していても、1つしか表示されないので注意が必要。

3元配置実験計画

実験計画法の1種で、要因(因子)が3つの場合の時を指す。

【例】 *( )内はそれぞれ水準を指す。

要因:
 温度(10℃、20℃、30℃)
 触媒(金、銅)
 気圧(1気圧、2気圧)

これらの要因・水準の組み合わせを基に、生成量の違いはどれだけになるかを探る実験を行う。
このような要因に基づく実験の場合、3水準×2水準×2水準=12回の実験を行うことになる。
この時得られる生成量のことを特性値と呼ぶ。
特性値の増減にどの要因(温度・触媒)が効いているかを調べるのが、実験計画法の大きな目的である。

2元配置実験計画行列Excelアドインツール 50A 「超らく解析プログラム」Excelアドインツール 510 「影響度分析プログラム」


散布図

対になったデータを横軸、縦軸で平面上にプロットしたグラフで、データの様子を捉えるには極めて有効である。対になったデータを解析するには、まず、散布図を描くとよい。外れ値などを見つけることができる。
原因となるようなものを横軸になるように作成する。

Excelアドインツール 207 「カラー散布図作成プログラム」


シグマ Sigma (Σ、σ)
ギリシャ文字で18番目の文字。
大文字は「Σ」
小文字は「σ」

大文字のΣは、データの総和(すべて足し算する)を表す。

ちなみに、このような記号を専門書で見かけるが、これは、1番目のデータxの値から1つずつ順番に最後のデータxまでの値をすべて足し算する、という意味。つまりデータの合計値(ExcelではSUM関数)を意味する。
 
ちなみにこれは、上記の合計値をデータ数で割り算したもの。平均値(相加平均、ExcelではAVERAGE関数)を表す。
小文字のσは、標準偏差(Standard Deviation)を表す記号として、よく使用されている。

[総和(合計)、標準偏差、偏差、自由度]

実験計画法
「要因計画法」とも呼ぶ。注目するデータ(生成量・不良率など)の増減に影響を及ぼすと考えられる要因(「因子」とも呼ぶ)と水準(それぞれの要因の条件を指す)を採り上げ、水準をいろいろ変化させ実験を実施する。
得られたデータ(特性値)に要因がどのように効いているかを調べ、また要因ごとの水準がどのような組み合わせの時に特性値が最大(または最小)となるかを調べる。
解析には分散分析法が一般に使用されるが、回帰分析でも解析可能であることが重要なポイントである。Excelでも充分解析できる。

要因計画法、特性値、要因、因子、水準、分散分析、回帰分析、Excelアドインツール 50A 「超らく解析プログラム」Excelアドインツール 510 「影響度分析プログラム」

重回帰式
y=a+b1x1+b2x2+b3x3…bkxkの式のこと。aをy切片、b を回帰係数という。最小自乗法を用いて を求める。 xを説明変数、yを被説明変数という。複数の説明変数でyを表わす式である。回帰式、回帰モデルとも呼ぶ。 xが1つのときが単回帰式である。回帰モデルは予測と要因分析に用いる。

重相関係数

重回帰式の良さを示す指標で、0と1の間の値をとる。一般には1に近いほど良い回帰式である。
Excelの回帰分析実行結果の解説は、この書籍も役に立つ。
Excelでできるかんたんデータマイニング入門 」(同友館・刊行)

[最適な回帰モデル]


順序尺度
成績などの順位や、アンケートなどでよく見かける、次のような数字が順序尺度にあたる。

● 当店をご利用になった感想をお聞かせ下さい。

  Q1: 従業員の接客態度 = 5.大変満足  4.満足  3.普通  2.やや不満  1.大変不満



[名義尺度間隔尺度比例尺度]

推測統計学
標本(サンプル)データから、母集団の統計量(平均値標準偏差など)を推測する統計学。
これに対して、「記述統計学」がある。

標本(サンプル)母集団記述統計学

ステレオグラム
Excelでは、グラフウィザードの「3−D(スリーディー)縦棒グラフ」のこと。2つの属性の項目に関連があるか、あるいは違いがあるかを視覚的につかむのに適している。
クロス表をグラフ化するにはこのステレオグラムがよい。
次のようなタイプ別良品・不良品のデータをステレオグラムで作成すると、以下のようになる。




数量化理論T類
林知己夫博士が提案した統計手法。ダミー変数を用いた回帰分析モデルであることがわかっている。Y(回帰モデルの被説明変数のこと)を外的基準という。外的基準をアイテム・カテゴリデータ(ダミー変数のこと)で表現し、回帰係数に相当するカテゴリ・スコアを求める。カテゴリ・スコアは定性的な情報を数量化したものである。

[ダミー変数、Excelアドインツール 50A 「超らく解析プログラム」Excelアドインツール 510 「影響度分析プログラム」

数量化理論II類

林知己夫博士が提案した統計手法。外的基準が定性的で2グループのときはダミー変数を用いた回帰分析モデルであることがわかっている。y(回帰モデルの被説明変数のこと)を外的基準という。外的基準をアイテム・カテゴリデータ(ダミー変数のこと)で表現し、回帰係数に相当するカテゴリ・スコアを求める。カテゴリ・スコアは定性的な情報を数量化したものである。

[ダミー変数、Excelアドインツール 50A 「超らく解析プログラム」Excelアドインツール 510 「影響度分析プログラム」


説明変数選択規準

重回帰分析において、最適な回帰モデルを求めるための説明変数選択規準として、以下のようなものがある。

●AIC (赤池の情報量規準): 各モデルの中で、この値が「最小」となるモデルを、最適なモデルとする。


●TIC (竹内の情報量規準): 各モデルの中で、この値が「最小」となるモデルを、最適なモデルとする。


●芳賀・奥野・竹内の規準: 各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。


●佐和の規準: 各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。


● 自由度調整済決定係数: 各モデルの中で、この値が「最大」となるモデルを、最適なモデルとする。
   (Excelの分析ツール「回帰分析」の出力結果で表示される「補正R2」にあたる)


[回帰分析、重相関係数、説明変数、Excelアドインツール 50B 「最適な回帰モデル」


相関の有無のt検定 (無相関の検定)

は自由度のt分布に従う

上記のことがわかっているので、データから相関係数rを求め、このrの値と、データ数nから、tを計算した値をとする。

  
という式が成り立てば、相関があると判定する。

相関の有無を判定する簡便法相関係数、自由度、t分布]


相関の有無を判定する簡便法
次の式が成り立つと相関があると判定する。

この式でrは相関係数のこと。
相関係数が0.73でデータ数が15個の場合、式に当てはめると、0.73の二乗が0.53で、4/17の0.24より大きいので、統計的に相関があると判定する。

[相関、相関の有無のt検定

相関係数
ある量とある量との線形な関係度を表わす指標で−1と1の間の値をとる。1に近いときは強い相関があるといい、−1に近いときは負の強い相関があるという。単回帰式の良さの指標でもある。
xが増えるとyも増えていくというような関係を正の相関関係があるといい、xが増えるとyが減っていくような関係は負の相関関係、どちらの傾向もみられないような場合は、無相関という。
相関係数rは次の式で求める。

Excelでは統計関数CORRELを使うか、Excelのアドイン「分析ツール」の中の「相関」機能で簡単に求めることができる。

相関の有無を判定する簡便法相関の有無のt検定相関係数、自由度、t分布]


● CORREL関数で求める場合:


●分析ツールで求める場合:





Excelアドインツール 201a 「相関クモの巣グラフ」


ソルバー

ソルバーとは、解決するツール。問題を解く(Solve)ツールという意味。
数理計画法のツールである、制約された条件の下に、例えばコストを最小にするためには各変数(項目)をいくらにすれば良いかを自動的に求めることができる。
輸送問題・栄養学の問題・最適人員配置問題などを解くことができる。

参考文献はこれがお勧め:
   苅田、上田、中西「Excelでできる 最適化の実践らくらく読本」(同友館・刊)

[最適化問題、成長曲線]


代表値
集められたデータはいくつかの数値に要約することができ、この要約に用いられるものが基本統計量と呼ばれる。
分布全体を1つの数値で示すために考えられた統計量のことを、代表値と呼ぶ。
代表値には、次のような種類がある。

・平均値 = 単純(相加)平均、幾何(相乗)平均、調和平均
・中央値(中関数、中位数、メディアン)
・最頻値 など。

[単純平均、幾何平均、調和平均、中央値最頻値

タグチメソッド  Taguchi Method

品質工学とも呼ぶ。田口玄一博士が半世紀かけて開発した画期的な工学手法。
ばらつきを少なくすることがポイント。ばらつきをSN比であらわし、SN比が大きくなる(ばらつきが小さくなる)ように制御因子の水準を決定する。開発設計段階で適用すべき手法である。

品質工学、SN比、制御因子、直交表


多元配置実験計画(たげんはいちじっけんけいかく)
実験計画法(「要因計画法」とも呼ぶ)の中で、要因(因子)が2個の時を、2元配置実験計画、3個の時を、3弦配置実験計画と呼ぶ。■要因の時は「■元配置実験計画」となり、これらを一般的に「多元配置実験計画」と呼ぶ。

実験計画法要因計画法、2元配置実験計画、3弦配置実験計画、要因、因子、計画行列]

ダミー変数
{好き、嫌い}、{男、女}など定性的な情報を0,1データであらわして、回帰式を求めることができる。この0,1データのことをダミー変数という。数量化理論1類はダミー変数を用いた回帰モデルである。

単回帰式
y=a+bxの式のこと。aをy切片、bを傾きあるいは回帰係数といい、xでyを表わす一次式である。xを説明変数、yを被説明変数という。最小自乗法を用いてa,bを求める。
単とは説明する変数xが1個であるからである。(複数個のときは重回帰式という。)
ちなみに、y切片とは、xが0の時のyの値を表す。(「定数項」とも呼ぶ)

縦棒グラフ
データを比較するのに最適なグラフ。
Excelでは、一般に表の左または上から、順番に棒グラフで表されるので、表データとグラフとで表示順序を変えたい場合は、表データとは別に、グラフ作成用の表を作ることがお勧めである。

中央値(メディアン)
データを小さい順にならべたとき、ちょうど真ん中(中央)にある値のこと。データが偶数個のときは、中央の2つの平均値が中央値である。
平均は極端に小さい値や極端に大きな値が変化すると影響されるが、中央値は影響されないのが特徴。データが正規分布の場合は、平均値=中央値になる。
Excelでは統計関数MEDIANで求めることができる。
なお、平均値だけではなく、中央値や最頻値も求めるべきということもあるが、やはり分布や層別の傾向の違いを探る・比較することにはかなわない。

[代表値]

直交表
要因(因子)と水準を効率よく割り付けられるように作られた表のこと。
2水準系(各要因につき水準が2つずつある): L、L、L16、L32、L64
3水準系(各要因につき水準が3つずつある): L、L27、L81
タグチメソッド系: L12、L18、L36
などがある。
列同士が直交しているところに特徴がある。計画行列そのものである。

実験計画法計画行列タグチメソッド直交表作成プログラムダミー変数Excelアドインツール 50A 「超らく解析プログラム」Excelアドインツール 510 「影響度分析プログラム」]]

データウェアハウス
データの倉庫のこと。通常は膨大な(ギガバイト、テラバイト級)データを入れる。データマイニングとデータウェアハウスはペアで使われる。著名な商品にEss Base、Red Brick、DIAPRISMなどがある。

データ工学

統計学、データマイニング、タグチメソッド、人間工学、感性工学など周辺関連手法・工学を駆使してデータ解析し、有効な知見や知識などを求める工学手法のこと。

1) 有効なデータを作る手法
2)データを解析して知見などを得る手法
がある。

 (1) 予測
 (2) 要因分析
 (3) 制御

などに資することを目的とする。
基本的なコンセプトは、次のABCの法則である。

 A (アナロジー = Analogy)
 B (バウンダリー = Boundary)
 C (コンビネーション = Combination)

上田提唱: データ工学は料理に例えると、いかに食材(データ)を見つけ作るか、そしていかにして料理をしておいしいものを作るかである。


データマイニング
データマイニングとは通常膨大なデータをマイニング(採掘)して宝物(情報・知見・知識・課題・仮説など)を見つける手法・プロセスのこと。代表的な手法には統計、ニューラルネット、パターン認識などがある。データマイニングツールのことをシフトウェアと呼んでいる。

尖度(せんど、とがりど)
尖度はデータの分布を描いたときどのくらい尖っているのかを示す統計量のこと。


上述の式は定義式で、Excelの場合の計算式は次のようになる。


Excelでは、KURT関数で求められる。


ノン・パラメトリックな検定

例えば、t検定は、母集団が正規分布に従うことがわかっている時に使うことができるが、その反対に母集団の分布に制限無く使うことができる検定を、ノン・パラメトリックな検定と呼ぶ。

[パラメトリックな検定、母集団、正規分布]


2元配置実験計画

実験計画法の1種で、要因(因子)が2つの場合の時を指す。

【例】 *( )内はそれぞれ水準を指す。

要因:
 温度(10℃、20℃、30℃)
 触媒(金、銅)

これらの要因・水準の組み合わせを基に、生成量の違いはどれだけになるかを探る実験を行う。
このような要因に基づく実験の場合、3水準×2水準=6回の実験を行うことになる。
この時得られる生成量のことを特性値と呼ぶ。
特性値の増減にどの要因(温度・触媒)が効いているかを調べるのが、実験計画法の大きな目的である。

3元配置実験、計画行列]


外れ値
数値データのなかで、極端に大きな、あるいは小さな値をとるデータのこと。異常値、例外値、特異点ともいう。シフトウェアを用いて外れ値をみつけ、原因を追求することで知見が得られることがある。データマイニングらしい手法の1つ。
また、3σで求めることもできる。

[データマイン君]

ばらつき
データのちらばり具合をばらつきという。ばらつきを表わす統計量には、標準偏差、レンジ(範囲)がある。

[基本統計量]

パラメトリックな検定
母集団の分布が正規分布などに従うものとしてその分布のパラメータ(平均値、標準誤差)の知識を使う検定のこと。

母集団、正規分布、平均値標準誤差

パレート図
縦棒グラフと折れ線グラフを組み合わせた複合グラフのこと。
重要な項目は何かを見極めるのに適している。複数の項目の中から影響度の高いものをみつけることができるため、その対策をとっていくことができる。
また、影響度の高い項目が、全体の何割を占めているかということが視覚的に分かるのがパレート図の特徴。
不良データをパレート図にすると、以下のようになる。パレート図作成には、降順(大きい順)で並べ替えた個数データと、その個数の累積比率が必要。

販売管理ソフトや会計ソフトなど、基幹業務系ソフトでは、ABC分析ができる機能を有しているものもある。


ヒストグラム
ある数値からある数値までの間にデータがいくつあるのかを表わす棒グラフ。データの分布の形を見るのに適している。また、データ全体の特徴をとらえるのに使用する。


ピボットテーブル(Excel)
Excelで表データから、2重クロス表や3重クロス表を自在に作成できる機能などがある。
行列を自由に入れ替えることができるので、さまざまな角度からの分析ができる。

1) 表データを用意する
2) ピボットテーブル(メニューバー「データ」→「ピボットテーブルとピボットグラフ レポート(P)」を選択)
3) 画面表示・該当する範囲指定等を行う
4) 作成したいクロス表の形になるよう、項目を選択する
5) 完成例: → example_031.xls (約25KB)

性別: au docomo 総計
21
28
49
28
23
51
総計
49
51
100

また、出力されたピボットテーブルの、例えば21のセルをダブルクリックすると、女性でauを所有する21人の詳細データが別シートに表示される。
ここで作成された「クロス表」は、ほかに「分割表」とも呼ぶ。

クロス表(分割表)、ダブルクリック、カイ自乗検定

標準化 (基準化)
(データの)基準化とも呼ばれる。
データの標準化の方法の1つとして、次のような方法がある。
複数のデータ(データ行数が2以上のことではない)について、比較・検討しやすいように、尺度を変換する方法のこと。
平均(単純平均)は必ず0、標準偏差は必ず1となるようにするのが、標準化である。

標準化の方法は次の通りである。

1)No.1〜No.10までの10個のデータがある。
  この10個のデータの平均値(Excelでは、AVERAGE関数)を求める。

2)10個のデータの標準偏差を求める。(Excelでは、STDEV関数)

3)まずNo.1のデータについて、次の計算をして、標準化させた値を求める。

  ([No.1の値]−[10個の平均])÷[10個の標準偏差]

4) 3)の計算をNo.2からNo.10についても行う。

5)全ての標準化させた値の平均値は0になり、どの項目においても、同じ
  レベルの数値になる。

[標準偏差(単純)平均Excelアドインツール 209 「標準化プログラム」]


標本
東京都に住む20代女性の、携帯電話所有率を調べる場合、20代女性の全員のことを母集団と呼ぶ。
現実的には、20代女性全員を調査して所有率を求めるのは不可能である。そこで、ランダムに500人を抽出した場合、この500人が標本(サンプル)数となる。

500人の回答結果から、母集団の所有率を求めることを推定と呼ぶ。このような統計学のことを、推測統計学と呼ぶ。

母集団」も参照のこと。

[アンケート調査、サンプルサイズ、母集団、標本数、推測統計学

標本サイズの決定法
アンケートの調査などで、標本サイズ(サンプルサイズ)をいくつにすれば良いかが問題になる。
標本サイズを決定する簡便法として、次のような式で求められる。


eは誤差(%)である。
eを5%とすると、
 →  →    つまり、データ数は最低でも400あれば良いことになる。
eを1%だとすると、この要領で計算して、データ数は最低10000あれば良いことがわかる。

[アンケート調査、サンプルサイズ、母集団、標本数]

標準偏差 (Standard Deviation)

標準偏差はばらつきを表わす統計量である。
統計的な対象となる値がその平均からどれだけ広い範囲に分布しているかを計量したもの。
標準偏差σ(シグマ)を求める式は以下の通り。


 ◆自由度n−1で割り算していることに注意。

わかりやすく説明すると次のようになる。

1) データが8個あるとする。(1、3、4、6、7、9、11、15)このデータの合計を求める。(ExcelではSUM関数)
2) 1のデータの平均値(相加平均)を求める。(ExcelではAVERAGE関数) この場合の平均値は7。
3) 1番目から8番目のデータについて、それぞれデータの値から2で求めた平均値を引き算する。(この値を「偏差」と呼ぶ)
   1番目のデータの場合は、1−7=−6。2番目のデータの場合は、3−7=−4…という要領になる。
4) 3で求めた値をそれぞれ2乗したものを合計する。この場合は146。(この合計した値を「偏差平方和」と呼ぶ)
5) 4で求められた値を「データ数−1」で割り算する(この値を不偏分散」と呼ぶ)この場合は、20.857…。
6) 5で求められた値の平方根を求めると、標準偏差が求められる。(答えは4.567)

Excelでは統計関数STDEVで簡単に求めることができる。

[分散、不偏分散、相加平均、偏差平方和、基本統計量


比例尺度
一般に、数量データ、量的データと呼ばれる。
数の大小にも意味があり、比(当月の月商300万円は前月比の2倍)や、差(前年と比べて年商が2000万円多い)を求めることにも意味を持ち、0は、その数が無いことを示す。(売上が無かった、時間の0はその時間が無かったことを示し、気温の0度などとは意味が異なる)

[間隔尺度名義尺度順序尺度]

品質工学
タグチメソッド」を参照のこと

分析ツール(Excel)、データ分析ツール
Excelでサポートされている統計分析機能。
基本統計量・ヒストグラム・相関係数行列・分散共分散行列・回帰分析など、19種類サポートしている。(Microsoft Windows版Excel XPの場合)

なお、Excel97は、メニューバーの「ツール」メニューを展開することで、「分析ツール」メニューが表示されるが、それ以降のバージョンの場合で、メニューが表示されない場合は、次のような方法で、分析ツールを使えるようにアドインを追加する必要がある。(CD-ROMに標準収録)

→→ 「分析ツールを使えるようにする
    (bun_tool.pdf 約56KB PDF形式)

[ヒストグラム、回帰分析]


平均値 Mean, Average

平均には通常私たちが使っている相加平均(単純平均)と相乗平均(幾何平均)、調和平均がある。
相加平均(単純平均)はn個のデータをすべて加えて、nで割って求めることができる。Excelでは統計関数AVERAGEを使用して求められる。
相乗平均(幾何平均)は、n個のデータをすべて掛け、その1/n乗で求めることができる。Excelでは統計関数GEOMEANを使用して求められる。

よく経済成長率などに用いられる。

1998年 100万円
1999年 200万円(前年の2倍)
2000年 600万円(前年の3倍)
2001年 1,800万円(前年の3倍)

の売上高だったとすると過去3年間の平均伸び率は 2+3+3の3分の1で2.667倍ではない。

100万円×2.667×2.667×2.667=1,897万円と実際の売上高と異なるので、この計算が誤りだということがわかる。
正しくは、幾何平均を用い、正解は2.6207倍となる。
負の値や0が含まれていると求まらない。「▲5%」の場合は0.95のように数値を置き換えれば求めることができる。

調和平均は、逆数の算術平均(相加平均)に対する逆数として定義されている。Excelでは統計関数HERMEANを使用して求められる。

300kmの距離を行きは時速60kmで、帰りは50kmで来たとすると、往復の平均時速は、(60+50)÷2で55kmではない。
行きの所要時間は5時間、帰りの所要時間は6時間かかっているので、往復600kmの道のりを11時間かかってきたことになる。
600÷11=54.5kmとも考えることができるが、調和平均を使えば、もっと簡単に求められる。

相加平均、相乗平均、調和平均の間には次のような関 係が成立する。
相加平均≧相乗平均≧調和平均

代表値基本統計量


偏差値 Deviation Score

常に、平均点を50、標準偏差を10となるように、正規分布の形になるようにしたもの。
あるテストを実施して、その際の点数に対する偏差値は次のような式で求められる。



1)全体の平均値(単純平均)を求める。
2)全体の標準偏差を求める。
3)得点から平均値を引き算して10倍したものを標準偏差で割り算する。
4)それに50を足し算する。

例:5人の受験者の得点が、上から80、70,50,40,30だとすると、平均値が54、標準偏差が20.74。
上記の式に当てはめて計算すると、上から、63、58、48、43、38と求められる

平均値、単純平均、標準偏差


母集団

東京都に住む20代女性の、携帯電話所有率を調べる場合、20代女性の全員のことを母集団と呼ぶ。
また、20代女性全員を調べて所有率を求めるのが「記述統計学」である。

標本」を参照のこと。

記述統計学推測統計学標本


母数と統計量

「母数」のことをパラメータ(Parameter)とも呼ぶ。母集団分布の様子を表す数値のこと。
例えば、母集団分布の中心位置を表す母数は、母平均μ(ミュー)、バラツキを表す母数としては、シグマ(σ)と呼ぶ。

これらμ、σは通常未知であるが、そこで、母集団からランダムに(等しい確率で)データを抽出し、μ、σを求めるのである。これが推定となる。

μの推定値を求める式:

(「ミューハット」と読む。μの推定値を意味する)



σの推定値を求める式:

「シグマハット」と読む。σの推定値を意味する)


これら、データから求めるを統計量と呼ぶ。
は「エックスバー」と読み、標本平均のこと。
は標本標準偏差のこと。


マルチコ/多重共線性 (Multi-collinearity)

重回帰分析のデータで、説明変数同士に極端に強い相関がある(見せ掛けの相関、擬似相関など)などの場合に起こり、予測や要因分析の判断を誤る恐れがある。
重回帰分析の場合、説明変数同士の相関の強さを確認することも必要で、これを解決する最も簡単な方法は、相関係数の高い説明変数のうちいずれかを分析用データから取り除いて、分析しなおすなどの方法がある。

マーケティングデータ分析などの場合では、「マルチコ」と略して呼ばれる。

参考: 関連書籍・共著書など「データマイニングの極Excelで学ぶデータマイニング入門(オーム社)意(共立出版)」、「Excelで学ぶ回帰分析入門」(オーム社)」、「実践ワークショップ Excel徹底活用多変量解析(秀和システム)」、「」など

[重回帰式、重回帰分析]


名義尺度

Q:あなたの血液型は?

   A: (1)A型  (2)B型  (3)O型  (4)AB型

このような場合に使われる数字や、社員番号、電話番号などがこれにあたる。

また、上のような血液型のデータの場合、カテゴリーデータとして扱うことができる。
標準偏差平均値、重回帰分析などの統計手法を用いるのは、結果が得られるが、まったく無意味である。


[間隔尺度順序尺度比例尺度]


歪度(わいど、ゆがみど)
歪度とはデータの分布を描いたとき、左右対称からみてどのくらい歪んでいるかを示す統計量のこと。


   正規分布          ピークが左           ピークが右


上述の式は定義式で、Excelなどの計算根拠は次のようになる。

n: データ数
m: 平均値
Excelでは、SKEW関数で求められる。

[基本統計量、尖度]


要因計画法
実験計画法」を参照のこと

レンジ(範囲)
ばらつきを表わす統計量で、最大値−最小値のこと。
Excelでは統計関数MAX(最大値を求める)と統計関数MIN(最小値を求める)の差からレンジを求めることができる。

[基本統計量]

ロジット変換
次のような変換をすることを、ロジット変換と呼ぶ。
……式1
の値を「ロジット」と呼ぶ。

を「オッズ」と呼ぶ。

は「自然対数」。

●式1のについて解く:


これを「ロジット変換の逆変換」と呼ぶ。

y切片(せっぺん)

回帰式の中で、が0の時のの値のことを、y切片と呼ぶ。Excelの分析ツール「回帰分析」の出力結果では、「切片」と表示しているのが、これにあたる。「定数項」(じょうすうこう)とも呼ぶ。

【参考】

単回帰式: 
 

重回帰式: 
 
kは説明変数の個数を示す。説明変数の個数まで式が続くことを意味する。

[単回帰式、重回帰式、回帰係数]


統計用語集 分析手法一覧へ ニューラルネット用語(日英対訳)へ