このページは移転しています。自動的に推移しない場合は、お手数ですがこの文章をクリックしてください。

ちょこっと講座 多変量解析とは?  

多変量解析とは何でしょうか?

「多変量解析」……難解な言葉ですね。
何回聞いても難解です(^^;。
ここでは、数式を使わずに、多変量解析を説明します。

◆例えば身長と体重のデータを考えます。
必ずしも、すべての人が当てはまるわけではありませんが、身長が高い人は体重もあり、低い人は軽いでしょう。
体重を身長で表す式が単回帰式です。身長と体重の関係式です。

これを強いて言えば、「単変量解析」です。
「単」は「1つ」の意味です。「単体」、「単独」の「単」です。

◆データとしてさらに胸囲、手の長さ、足の長さ、胴囲などのデータがあったとします。

このようにデータ項目数が6つと多くなっています。
体重、身長、胸囲、手の長さ、足の長さ、ヒップのことを統計では、変数 と呼びます。
ここでは6変数あります。
100人のデータならデータ数(行数)は100、変数の個数(列数)は6です。100行 × 6列のデータです。
まさに多変量のデータです。
(注)多変数解析と呼ばず、多変量解析と呼んでいます。

 

◆多変量解析はこの6変数データを一気に扱う、つまり解析するのです。

多くの変数から成るデータを解析する手法(方法)が、多変量解析なのです。
変数は、時には100(列)にもなることもあります。
データ数(サンプル数)は、時に10,000(行)以上になることもあります。
したがって、コンピュータのプログラムが必須です。とても手計算や電卓では解析不可能です。


◆多変量解析は多変量データを解析して有効な情報を見つける統計的な手法です。
では、どのようにして解析するのと疑問が湧いてきます。

多変量解析法は変数データ同士の関係(統計用語では「相関」と呼びます)に注目します。

例えば、足が長いと身長も高い、その逆に足が短いと背も低い、胴囲が大きいと体重もある、
などです。
変数同士の相関情報をうまく利用するのです。相関の情報を数値で表したのが、「相関係数」と呼びます。
相関係数を求め、さらに解析を深めていくのです。相関を利用した多変量解析の主な手法には、「主成分分析」があります。

◆多変量解析法には、ここで挙げた「主成分分析」のほかにも、多くの手法があります。
「正準相関分析」、「判別分析」、「因子分析」、「重回帰分析」、「クラスター分析」、「フェイス分析」、「数量化理論I類」、「数量化理論II類」、「数量化理論III類」、「数量化理論IV類」などなどです。
目的に応じて、多変量解析の手法を選択します。
こんな目的でこんなデータのときは○○手法を使えば良い、ということになります。

目的とデータの性質により、適用する手法が決まってきます。
代表的な多変量解析手法を紹介しましょう。

●「重回帰分析」
 ある注目しているデータ、例えば体重を別のデータと身長、胸囲、手の長さ、足の長さ、
胴囲を使って表す式(これを「重回帰式」と呼びます)を求めます。

  そしてこの式を用いて予測をすることができます。
身長が○○、胸囲が○○、手の長さが○○、足の長さが○○、胴囲が○○の人の体重は何kig?というように。更に、重回帰分析は要因分析もできます。人によって体重の多い(または少ない)の違いにより効いているのは身長、胸囲、手の長さ、足の長さ、胴囲のうちどれかを探ることができます。
Excelの分析ツールでも重回帰分析は分析可能です。
なお、Excel分析ツールで回帰分析を行う場合、説明変数(手の長さ、足の長さの列)が16列までの場合に利用できます。
Excel用アドインプログラム: 「最適な回帰モデル
Excel用アドインプログラム: 「拡張回帰分析プログラム」 (説明変数17列以上でも分析可能)

●「フェイス分析」
 「
データマイン君」では、顔グラフのことです。
体重、身長、胸囲、手の長さ、足の長さ、胴囲のデータがわかっている30人のデータから、30個の顔グラフを描きます。すると30人の特徴をパッと視覚的につかむことがしやすくなります。
Excel用アドインプログラム: 「データマイン君」 リクエスト・フォームはこちらから。

以上、人間の身体のデータで、多変量解析を説明しましたが、会社データや県別データ、心理学データ、
医薬データ、小売店のデータ、実験データなどあらゆるデータに適用できます。
Excel用アドインプログラム: 「データマイン君」リクエスト・フォーム
参考著書: 「データマイニング事例集」、「実践ワークショップExcel徹底活用 多変量解析」、「Excelで学ぶデータマイニング入門」

◆最後にExcelの分析ツールで多変量解析法がどこまでできるのでしょうか。
ここでは手法の名前だけ列挙します。

  • 重回帰分析・・・(予測と要因分析)
  • 判別分析・・・(判別予測と要因分析)
  • 数量化理論I類・・・(予測と要因分析)
  • 数量化理論II類・・・(判別予測と要因分析)
  • フェイス分析・・・(データマイン君を使う)

    ●「判別分析」
    複数の数値項目から成るデータという意味では、重回帰分析に似ていますが、注目する項目(多変量解析の「外的基準」と呼び、重回帰分析では「被説明変数」とか「目的変数」と呼びます)は、「(お客様が)来店する/来店しない」、「有り/無し」、「合格/不合格」のように予めグループ化されたカテゴリーデータになります。
    「合格」だけのデータを集めて判別分析を行うことはできません。(試行したとしても分析や予測の精度には期待できないでしょう。)
    Excelの分析ツールでも判別分析は分析可能ですが、「有り/無し」のように予め2つのグループに分かれているデータに限られます。3つ以上のグループに分かれているデータの場合は、Excel用アドインツールや、統計解析専門のプログラムが必要です。
    なお、Excel分析ツールで回帰分析を行う場合、説明変数()が16列までの場合に利用できます。
    ・ Excel用アドインツール 512 「判別分析プログラム

    ●「数量化理論I類」

    重回帰分析は外的基準があり、複数の数値項目から成るデータですが、説明変数がカテゴリーデータから成るデータが数量化理論I類データです。ダミー変数(0・1に置き換えた値)を利用した重回帰分析と言えます。

    ・ Excel用アドインツール 510 「影響度分析プログラム」 (多くの列の分析が可能)
    ・ Excel用アドインツール 50A 「超らく解析プログラム」  (Excelの分析ツールを利用)

    ●「数量化理論II類」
    判別分析に似ていますが、説明変数がカテゴリーデータから成るデータです。説明変数もダミー変数(0・1に置き換えた値)を利用した判別分析と言えます。
    Excelの分析ツールでもダミー変数を使えば数量化理論II類の分析は分析可能ですが、「有り/無し」のように予め2つのグループに分かれているデータに限られます。3つ以上のグループに分かれているデータの場合は、Excel用アドインツールや、統計解析専門のプログラムが必要です。
    なお、Excel分析ツールで回帰分析を行う場合、説明変数()が16列までの場合に利用できます。
    ・ Excel用アドインツール 510 「影響度分析プログラム
    ・ Excel用アドインツール 50A 「超らく解析プログラム

◆では、多変量解析は業務でどう役に立っているのでしょうか。

1.膨大なデータを要約して特徴を掴みやすくしています。「主成分分析」・「クラスター分析」などを適用します。現状がどうなっているのかがわかります。知見、仮説、問題点などを見つけ、経営・業務に役立てています。

2.予測に有効です。重回帰分析、数量化理論I類などを適用して予測システムを構築しています。例えば、SCM(サプライ・チェーン・マネジメント)を考えます。SCMは最適在庫がポイントです。そのためには最適予測です。データを用いて現状分析、さらに予測式を求めます。

適用事例などは「データマイニング事例集」、「データマイニングの極意」などの著書もご覧ください。

 


いろいろと分析手法を並べましたが、考え方は多変量解析に限ったことではなく、次のことをまず念頭に置いておきましょう。

  • この業界にはこの分析手法、というものはありません。
  • まずは分析目的を明確にすること。
  • 分析目的が明確になったら、分析手法が決まる。
  • 分析手法が決まれば、データの型が決まる。
    つまり外的基準(注目する変数)の有無や変数が数値データなのか・カテゴリーデータなのか、またクロス集計表なのかが決まるのです。
  • 分析や予測を一度したらしっぱなしではいけません。
    かならずその後の検証や仮説・モデルの見直しの余地が無いかどうかを確認しましょう。
    ビジネスでの活用であれば、日常業務を通じて予測モデルや分析結果の検証を続けなければなりません。
    BIツールの活用においても同様です。一朝一夕の効果が現れるものではありません。
  • すぐに効果が表れる、予測が(必ず)当たるというのは幻想です。
  • もちろんこれまでの業界・業務の経験も考慮に入れなければなりません。

ちょこっと講座でした〜。(^^ゞ