Text Size

00:多変量解析とは

多変量解析とは何でしょうか?

「多変量解析」……難解な言葉ですね。
何回聞いても難解です(^^;。
ここでは、数式を使わずに、多変量解析を説明します。

そもそもデータの特徴を捉えるには……

データの特徴を把握したり、訴求したりするのに、まずやることとは、生データ(Row Data)や集計表からグラフを描いたり、また単純集計表・クロス集計表を求めたり、ヒストグラム(Histogram)などによってデータの分布を探ったりと、主に1つの数値項目や、集計されたデータを主に扱うことが多いものです。

アンケート調査の集計のように「本日のコンサートは楽しかったですか?」という設問に対し、回答者100人のうち、「楽しかった」が70人、「楽しくなかった」が10人…というように選択肢ごとに集計すれば、回答者のうち、7割のお客様から楽しいという評価が得られた、ということがわかります。
これももちろん有効な情報ではあります。またこのような単純集計で調査目的を達成することができる場合も多くあります。

多変量解析(Multivariate Analysis)では、このコンサートの評価のように、1つの項目について集計をするのではなく、複数の項目間の関連や、データの特徴により分類をするなど、より高度な分析ができる方法があります。

多変量解析の前に2つの数値項目に注目……

月並みの表現になりますが、身長と体重のデータがある時、身長や体重を5cmや5kg刻みでそれぞれの範囲に該当する人が何人いるのかを集計するのが単純集計です。
そして例えば5cm刻みの身長を横軸に配置し、それぞれの範囲内に何人が該当するのかを表わすのは、ヒストグラムです。
Excelでも分析ツールを使ったり、また少々手をかければ、関数でも作成することができます。

例えば体重について、身長との関連を基に体重の多い・少ないを説明するのに、式を使って表わす場合は、単回帰分析という方法を使って式を求める方法があります。
回帰分析という分析方法で体重を説明するのに、説明するためのその他の項目が「身長」といった1つだけの場合は、単回帰分析と呼びます。
身長以外にも、胸囲、ウエスト、脚の長さ、足の大きさなど、2つ以上の(数値)項目から成るデータを一度に分析に採り入れた分析方法が、重回帰分析です。

そして回帰分析によって説明するための式ということで、単回帰式、重回帰式と呼んだり、またデータについて傾向や特徴について、式などによって説明するもののことを、統計学ではモデル(Model)と呼ぶことから、統計学に基づくモデルということで、統計モデル(Statistical Model)と呼び、そして回帰分析によるモデル(を総称した呼び方をする)ということで、回帰モデルと呼ぶこともあります。

多変量解析について

またこのような分析は手計算や電卓では、大変困難または不可能なため、コンピュータが必要になります。
Excelの標準機能では、種類は限られますが多変量解析に役立つ機能が備わっています。

統計学では、身長や体重などの項目のことを変数(Variable)と呼びます。多変量解析には複数の変数を対象に一度に分析するばかりではなく、データ(ケース)間の関係を探ることもあり、多変数解析と呼ばずに、多変量解析と呼びます。
主な多変量解析の目的は、項目間(変数間)の関連を探ったり、データをグルーピングしたり、予測を行ったりします。

変数は、時には100(列)を超えるようなケースもあります。
データ行数(サンプルサイズ)は、時に10,000(行)や100,000を超えることもあります。
このため、計算はコンピュータに任せるのですが、しかし分析の種類や用途、また必要なデータの型、注意点といった概要については、意思決定に携わる全員が理解しておいて良いだろうと考えています。

多変量解析は、変数同士の関係に注目します。このことを「相関」と呼びます。相関だけに、そう考えてくださいww。

例えば、足が長いと身長も高い、その逆に足が短いと背も低い、胴囲が大きいと体重もある、といった具合に。
これはあくまで「総じて」という考え方を忘れてはなりません。
個別の事例は例外があります。
そして変数同士の相関関係をうまく利用するのです。
相関関係を数値で表したのが、「相関係数」と呼びます。
相関関係を利用した多変量解析の主な手法には、「主成分分析」もあります。

他にも……

「正準相関分析」、「判別分析」、「因子分析」、「重回帰分析」、「クラスター分析」、「フェイス分析」、「数量化理論I類」、「数量化理論II類」、「数量化理論III類」、「数量化理論IV類」などなどです。
目的に応じて、多変量解析の手法を選択します。
こんな目的でこんなデータのときは○○手法を使えば良い、ということになります。

分析の目的、つまり「何ガ知りたいのか?」が明確になると、データの型や性質が決まってきます。
そして分析手法が決まってきます。


代表的な多変量解析手法を紹介しましょう。
(*):制約はあるものの、Excelで分析が可能

外的基準の有無

外的基準のデータ型

(説明)変数のデータ型

分析の目的

主な手法例

あり

数値データ

数値データ

外的基準の数値を推定(数値予測・要因分析)

重回帰分析(*)

カテゴリーデータ

直交表による割付されたデータで、最適な組み合わせを探る(予測)・要因分析

コンジョイント分析(*)

直交表による割付されたデータではなく、カテゴリーデータの予測と要因分析

数量化理論Ⅰ類(*)

カテゴリーデータや比率・割合のデータ

数値データ・カテゴリーデータ

外的基準のグループまたは比率を0~1(0%~100%)の間で推定

ロジスティック回帰分析(*)

カテゴリーデータ

数値データ

外的基準のグループを推定(線形な関係)

(線形)判別分析(*)

外的基準のグループを推定(非線形な関係)

マハラノビスの距離

カテゴリーデータ

外的基準のグループを推定(予測・要因分析)

数量化理論Ⅱ類(*)

なし

数値データ

総合的な評価項目に要約

主成分分析

項目をグループ化と意味付け

因子分析

サンプル・項目のグループ化

クラスター分析

評価の数値データ

評価項目の重要度を探る

AHP(一対比較法)

カテゴリーデータ

変数間の関係・項目間の関係を説明

数量化理論Ⅲ類

双対尺度法

カテゴリーデータ(クロス集計表)

変数間の関連

コレスポンデンス分析

●重回帰分析

ある注目しているデータ、例えば体重を別のデータと身長、胸囲、手の長さ、足の長さ、胴囲を使って表す式を求めます。
この式のことを重回帰式と呼びます。
また注目している変数のことを目的変数、従属変数、被説明変数と呼びます。
そして身長や胸囲、手の長さなどの変数を、説明変数、独立変数と呼びます。

そしてこの式を使って、身長が○○、胸囲が○○、手の長さが○○、足の長さが○○、胴囲が○○の人の体重は何kig?というように予測をすることができます。
更に、人に よって体重の多い(または少ない)の違いにより効いているのは身長、胸囲、手の長さ、足の長さ、胴囲のうちどれかを探ることができます。
Excelの分析ツールでも重回帰分析は分析可能ですが、LINEST関数を使う場合も含め、説明変数(手の長さ、足の長さの列)が16列までの場合に利用できます。

Excelで17列以上の説明変数に成る場合は、次のようなExcel用アドインプログラムを利用するか、S-PLUSSPSSRなどの統計解析ソフトを利用します。

Excel用アドインプログラム: 「501 拡張回帰分析プログラム」 (説明変数17列以上でも分析可能)

また変数選択には、統計解析用ソフトでもAICなどの指標で行ってくれますが、Excelでは、手作業による変数選択が必要です。

Excel用アドインプログラム: 「50B 最適な回帰モデル」

●フェイス分析

体重、身長、胸囲、手の長さ、足の長さ、胴囲の大きさに応じて、顔の各パーツ(眉毛の角度、顔の大きさ、口の曲がり具合など)で表現する視覚化の方法の1つです。
Excel用アドインプログラム「データマイン君」の顔グラフ(顔グラフの機能のみExcel2003まで対応)で描くことができます。
ここでは人間の身体のデータで、多変量解析を説明しましたが、会社データや県別データ、心理学データ、医薬データ、小売店のデータ、実験データなどあらゆるデータに適用できます。
→ 「データマイン君」 リクエスト・フォームはこちらから。

・ 参考書籍: 「データマイニング事例集 」、「実践ワークショップ Excel徹底活用多変量解析―具体的な事例から多変量解析を理解する (EXCEL WORK SHOP) 」、「Excelで学ぶデータマイニング入門

●判別分析

データの型は重回帰分析に似ていますが、注目する項目(多変量解析の「外的基準」と呼び、重回帰分析では「被説明変数」 とか「目的変数」と呼びます)は、「(お客様が)来店する/来店しない」、「有り/無し」、「合格/不合格」のように予めグループ化されたカテゴリーデー タになります。
「合格」だけのデータを集めて判別分析を行ってはいけません(試行したとしても分析や予測の精度には期待できません)。

Excelの分析ツールでも簡易に判別分析を行うことは可能ですが、「有り/無し」のように予め2つのグループに分かれているデータに限られます。
3つ以上のグループ に分かれているデータの場合は、Excel用アドインツールや、統計解析用のプログラムが必要です。
なおExcel分析ツールで回帰分析を行う場合、説明変数が16列までの場合に利用できます。
16列を超える場合は、Excel用アドインプログラムを利用するか、統計解析用プログラムを利用します。

・ Excel用アドインツール 「512 判別分析プログラム

●数量化理論I類

説明変数がカテゴリーデータ、目的変数が数値データから成るデータを使い、ダミー変数(カテゴリーデータを0・1に置き換えた値)を利用した重回帰分析と言えます。

・ Excel用アドインツール 「510 影響度分析プログラム」 (多くの列の分析が可能)
・ Excel用アドインツール 「50A 超らく解析プログラム」  (Excelの分析ツールを利用)

●数量化理論II類

判別分析に似ていますが、説明変数がカテゴリーデータから成るデータです。
説明変数もダミー変数を利用した判別分析と言えます。
Excelの分析ツールでもダミー変数を使えば数量化理論III類の分析は分析可能です。
しかしそのときは、「有り/無し」のように予め2つのグループに分かれているデータに限られます。
3つ以上のグループに分かれているデータの 場合は、Excel用アドインツールや、統計解析専門のプログラムが必要です。
なおExcel分析ツールで回帰分析を行う場合、説明変数が16列までの場合に利用できます。

・ Excel用アドインツール 「510 影響度分析プログラム
・ Excel用アドインツール 「512 判別分析プログラム


重回帰分析・判別分析・数量化理論I類についてeラーニングで理解しよう!

日経ビジネススクール オンライン講座「Excelで始める統計学 データ分析基礎編」、「Excelで始める統計学 データ分析活用編」 講師: 米谷学

他にも便利なExcel用アドインプログラム

Excel用アドインツール 「502 主成分分析プログラム
Excel用アドインツール 「503 正準相関分析プログラム
Excel用アドインツール 「504 因子分析プログラム
Excel用アドインツール 「505 クラスター分析プログラム
Excel用アドインツール 「506 双対尺度法プログラム
Excel用アドインツール 「507 コレスポンデンス分析プログラム

発売中!

初の主著発売!

データマイン君 リクエスト・フォーム

取扱いアドインプログラム

「データマイン君」の「クロス集計表の独立性の検定」・「外れ値検出」・「相関の有無」以外は、Excel2003までで動作確認ができています。

  • データマイン君
  • 散布図CL06 (207 散布図の無料版)
  • 双対尺度法試103 (507 双対尺度法の無料版)
  • 超らく解析078 (50A 超らく解析の無料版)
  • 最適な回帰モデルサンプル版 (50B 最適な回帰モデルの無料版)

ダウンロード: 無料

(接続料等はご負担下さい)
なお、一部書籍などでご案内していた塾生制度は終了しました。

●個人情報保護方針

●特定商取引法に基づく表記

◆SSL(Secure Socket Layer)で暗号化された安全な通信を採用しています。入力し送信された個人情報は、暗号化されてSSLサーバーに届きます。

アンケートモニター登録

ブログ「データ活用と分析の道しるべ」

~ 経験や勘だけに頼らない意思決定に向けて ~

メルマガ購読・解除
データマイニングで宝物を見つける
バックナンバー
powered by まぐまぐトップページへ