データマイニング事例
今回は「企業診断」3月号に書いた記事を紹介します。

データマイニング入門講座
第3回 コンビニで売れる女性会社員向け弁当を探る

−有効なアンケートの作成と分析法−

三菱電機(株)情報システム製作所 上田太一郎

一橋大学商学部 杉村裕喜


データマイニングは通常 POSデータとか顧客データとか膨大なデータを扱います。しかしながら、例えば天然の真珠をむやみに採る(マイニングする)と乱獲になります。そこで、粒揃いの真珠を計画的に作ることを考えます。つまり養殖真珠です。これに相当するのが実験計画法と呼ばれる統計手法です(その中で、特にマーケテイング分野で適用・普及した手法がコンジョイント分析と呼ばれています)。

そこで、今回は実験計画法の事例を紹介します。得られたデータは Excelで解析可能です。読者は事例を理解して、自らも解析できるようになって下さい。

1.はじめに

コンビニで売られている弁当は、手軽で価格も安いため、女性会社員に大変人気があります。女性会社員に人気がある弁当はどのようなものでしょうか。さらに売上の増加につながる弁当はどのようなものでしょうか。統計手法の中の実験計画法に基づいてアンケートを作り、回収、解析し、人気がある弁当を探ってみました。
 
注:実験計画法とは
実験計画法は1920年代に英国のR.A.フィッシャーが創始した画期的な 統計手法の1つです。費用や時間をあまりかけずにデータを有効にとり(ここではアンケートをとり)、解析し、知見・仮説などを得る手法です。

 まず、人気弁当を探るためにアンケートを作らなければなりません。メインはどんなものがよいのか、価格はいくらぐらいがよいのかなどです。このアンケートは4種類{メイン、メインの量、おかず、価格}からなります。そして、それぞれがメイン{オムライス、そば、ドリア、サンドイッチ、おにぎり}、メインの量{普通、少なめ、多め}、おかず{サラダ、煮付け、おひたし、炒めもの、なし}、価格{390円、500円、630円}に分かれています。実験計画法ではメイン、おかずなどのことを要因と呼びます。そして、オムライス、サラダ、390円など要因の中身のことを水準と呼びます。このアンケートでは4要因がそれぞれ5、3、5、3水準で成り立っていることになります(表1参照)。

表1 弁当の要因と水準
要因
水準1
水準2
水準3
水準4
水準5
メイン
オムライス
そば
ドリア
サンドイッチ
おにぎり
メインの量
普通
少なめ
多め
-
-
おかず
サラダ
煮付け
おひたし
炒め物
なし
価格
390円
500円
630円
-
-

 アンケートは4要因がそれぞれ5、3、5、3水準で成り立っているわけですから5×3×5×3=225とおりの弁当が考えられます。これをすべてアンケートに盛り込むとなると膨大な量になります。回答する側もいやになってしまいます。そこで、ここでは直交表というものを利用します。直交表については注を参照して下さい。ここではL15直交表を用います。
 
 
注:直交表とは

直交表とはバランスよく1と2(あるいは1、2、3、4、5)を並べた表と考えたら理解しやすいでしょう。アンケート作成などの際に、効率良く情報を得るために用いられます。表2にL直交表の一部を示します。ここでは4列までしかありませんが、本来は7列あります。1と2が規則正しく並んでいることがわかります。

表2 L8直交表の一部
NO
1列
2列
3列
4列
1
1
1
1
1
2
1
1
1
2
3
1
2
2
1
4
1
2
2
2
5
2
1
2
1
6
2
1
2
2
7
2
2
1
1
8
2
2
1
2

表2の相関係数を求めてみると表3のようになります。自分自身の相関係数はもちろん1ですが他の列との相関係数は0になっています。これが直交表の性質の1つです。相関係数とは、ある量とある量との線形な関係の度合いを表す指標で、−1と1の間の値をとります。1あるいは−1に近いとき強い相関があり、0に近いときは相関がないといわれます。

表3 表1の相関係数
列1
列2
列3
列4
列1
1
列2
0
1
列3
0
0
1
列4
0
0
0
1

この L直交表を用いることにより、4要因2水準は本来ならば2の4乗で16とおりの組み合わせとなりますが、8とおりの組み合わせでよいことになります。具体的に表2に要因及び水準を入れてみましょう(この作業を「割り付け」といいます)。例えばメイン{オムライス、そば}、メインの量{普通、多め}、おかず{サラダ、煮付け}、価格{390円、500円}という要因及び水準の場合、1列をメインとし、1にオムライスを、2にそばを割り付けます。同様にして以下3要因も割り付けます。

表4が割り付けた結果です。

表4 割り付け結果
NO
1列
2列
3列
4列
1
オムライス
普通
サラダ
390円
2
オムライス
普通
サラダ
500円
3
オムライス
多め
煮付け
390円
4
オムライス
多め
煮付け
500円
5
そば
普通
煮付け
390円
6
そば
普通
煮付け
500円
7
そば
多め
サラダ
390円
8
そば
多め
サラダ
500円

本来ならば16(2の4乗)とおりの組み合わせになるはずのものが表4のように8とおりで済みました。このように直交表を利用して、割り付けることにより、非常に効率良く情報を得ることができるようになるのです。

(注)直交表には他に L4、L16、L32(2水準系)、L9、L27(3水準系)などがあります。
 

2.アンケートの作成と回答結果


直交表を利用して、アンケート用紙を作成します(表5)。

        表5 アンケート用紙

番号
メイン
メインの量
おかず
価格
回答欄
1
オムライス
普通
サラダ
390円
2
そば
少なめ
サラダ
500円
3
ドリア
多め
サラダ
630円
4
サンドイッチ
普通
煮付け
390円
5
おにぎり
多め
煮付け
500円
6
おにぎり
少なめ
煮付け
630円
7
サンドイッチ
多め
おひたし
390円
8
ドリア
少なめ
おひたし
500円
9
そば
普通
おひたし
630円
10
オムライス
普通
炒め物
390円
11
オムライス
少なめ
炒め物
500円
12
そば
多め
炒め物
630円
13
ドリア
少なめ
なし
390円
14
サンドイッチ
多め
なし
500円
15
おにぎり
普通
なし
630円

絶対買うなら10点、わからないなら5点、絶対買わないなら0点を記入して下さい。

直交表を利用したことにより、本来ならば225とおりの弁当に回答してもらう必要がありますが、15とおりで済みました。このように、アンケートを作成する側と回答する側の手間をいかに省くかということも重要なことです。さらに手間を省いたのにもかかわらず、それから得られる情報が多いということも大切です。

このアンケートの見方は、例えば、番号1はメインがオムライスでその量が普通、おかずはサラダで価格は390円ということになります。以下番号2から15までも同じようになります。

このアンケートを女性会社員に回答してもらいました。1から15までの弁当について、絶対買うなら10点、絶対買わないなら0点、わからないなら5点を記入してもらいました。今回は13人の女性会社員の回答結果です。その結果の平均点は表6のようになりました。

表6 アンケートの結果
番号
メイン
メインの量
おかず
価格
平均点
1
オムライス
普通
サラダ
390円
8.46
2
そば
少なめ
サラダ
500円
1.54
3
ドリア
多め
サラダ
630円
3.46
4
サンドイッチ
普通
煮付け
390円
5.38
5
おにぎり
多め
煮付け
500円
6.92
6
おにぎり
少なめ
煮付け
630円
3.46
7
サンドイッチ
多め
おひたし
390円
5.77
8
ドリア
少なめ
おひたし
500円
1.92
9
そば
普通
おひたし
630円
3.46
10
オムライス
普通
炒め物
390円
6.92
11
オムライス
少なめ
炒め物
500円
3.08
12
そば
多め
炒め物
630円
2.31
13
ドリア
少なめ
なし
390円
4.23
14
サンドイッチ
多め
なし
500円
3.08
15
おにぎり
普通
なし
630円
2.31

平均点を棒グラフにしたものが図1になります。平均点は人気度といってもよいでしょう。以下人気度と呼びます。

         図1 アンケートの平均点

グラフからもわかるように弁当1がもっとも平均点が高い、すなわち人気があるようです。しかし、もっと平均点の高い組み合わせは存在しないのでしょうか。このことを調べるために表6を分析してみましょう。

3.人気度を表す式を求める

まず、各要因が人気度にどのように効いているか調べます。ここでは、回帰分析を用います。
注:1 回帰分析とは
回帰分析はどの要因のどの水準がどれだけ人気度に影響を与えているかを説明するためのものさし(回帰式)を作るものと考えて下さい。今回は人気度を被説明変数、割り付け表を説明変数として分析しました。回帰分析では人気度にそれぞれの要因がどのくらい影響を与えているかということを調べているので、人気度が被説明変数ということになります。EXCELなどを用いれば回帰式を簡単に求めることができます。

そのために表6を回帰分析で可能なように表7のように作り直します。作り方は該当する水準があれば1、そうでなければ0と記入します。

表7 表6を回帰分析用に作り直したもの
オムライス
そば
ドリア
サンドイッチ
おにぎり
普通
少なめ
多め
サラダ
煮付け
おひたし
炒めもの
なし
390円
500円
630円
平均点
1
0
0
0
0
1
0
0
1
0
0
0
0
1
0
0
8.46
0
1
0
0
0
0
1
0
1
0
0
0
0
0
1
0
1.54
0
0
1
0
0
0
0
1
1
0
0
0
0
0
0
1
3.46
0
0
0
1
0
1
0
0
0
1
0
0
0
1
0
0
5.38
0
0
0
0
1
0
0
1
0
1
0
0
0
0
1
0
6.92
0
0
0
0
1
0
1
0
0
1
0
0
0
0
0
1
3.46
0
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
5.77
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
1.92
0
1
0
0
0
1
0
0
0
0
1
0
0
0
0
1
3.46
1
0
0
0
0
1
0
0
0
0
0
1
0
1
0
0
6.92
1
0
0
0
0
0
1
0
0
0
0
1
0
0
1
0
3.08
0
1
0
0
0
0
0
1
0
0
0
1
0
0
0
1
2.31
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
4.23
0
0
0
1
0
0
0
1
0
0
0
0
1
0
1
0
3.08
0
0
0
0
1
1
0
0
0
0
0
0
1
0
0
1
2.31

 表7を回帰分析にかけます。このとき、このままでは回帰分析はできません。統計学的な理由から各要因ごとに1水準ずつ削除する必要があります。削除したものが表8です。

表8 各要因から1水準ずつ削除したもの
オムライス
そば
ドリア
おにぎり
普通
多め
サラダ
煮付け
おひたし
なし
390円
500円
平均点
1
0
0
0
1
0
1
0
0
0
1
0
8.46
0
1
0
0
0
0
1
0
0
0
0
1
1.54
0
0
1
0
0
1
1
0
0
0
0
0
3.46
0
0
0
0
1
0
0
1
0
0
1
0
5.38
0
0
0
1
0
1
0
1
0
0
0
1
6.92
0
0
0
1
0
0
0
1
0
0
0
0
3.46
0
0
0
0
0
1
0
0
1
0
1
0
5.77
0
0
1
0
0
0
0
0
1
0
0
1
1.92
0
1
0
0
1
0
0
0
1
0
0
0
3.46
1
0
0
0
1
0
0
0
0
0
1
0
6.92
1
0
0
0
0
0
0
0
0
0
0
1
3.08
0
1
0
0
0
1
0
0
0
0
0
0
2.31
0
0
1
0
0
0
0
0
0
1
1
0
4.23
0
0
0
0
0
1
0
0
0
1
0
1
3.08
0
0
0
1
1
0
0
0
0
1
0
0
2.31

表8を回帰分析すると表9のような実行結果が得られます。

表9回帰分析実行結果
回帰統計
重相関 R
0.9992
重決定 R2
0.9984
補正 R2
0.9891
標準誤差
0.2166
観測数
15
分散分析表
自由度
変動
分散
観測された分散比
有意 F
回帰
12
60.246
5.0205
107.04
0.0093
残差
2
0.0938
0.0469
合計
14
60.34
係数
切片
-3.427
オムライス
6.2003
そば
2.6854
ドリア
1.8589
サンドイッチ
0
おにぎり
1.8932
普通
1.0296
少なめ
0
多め
3.1529
サラダ
1.8305
煮付け
4.9165
おひたし
3.1272
炒め物
0
なし
2.8813
390円
2.928
500円
0.3955
630円
0

表9の係数から人気度を表す次の式が求まります(削除した列は係数を0とします)。


メイン 

人気度(y)=−3.43+   6.20(オムライス)
             2.69(そば)
             2.86(ドリア)
             0.00(サンドイッチ)
             2.89(おにぎり)
  メインの量      おかず        価格 
+ 1.03(普通)  + 1.83(サラダ)  + 2.93(390円)
  0.00(少なめ)   4.92(煮付け)    0.40(500円)
  3.15(多め)    3.13(おひたし)   0.00(630円)
             2.88(なし)
             0.00(炒め物)
       ・・・(1) (1)式から最も人気が高い弁当はメインがオムライス、メインの量は多め、おかずは煮付け、価格は390円の組み合わせで

 −3.43+6.20+3.15+4.92+2.93=13.77点

であることがわかります。かなりの高得点です。逆に、最悪の組み合わせはメインはサンドイッチ、量は少なめ、おかずは炒め物、価格は630円の組み合わせで

−3.43+0+0+0+0=−3.43点

となります。

4.人気度に効いている要因は何か 〜要因分析〜

要因分析をします。つまり人気度に効いている要因はどれかを調べます。そのために(1)式の各要因の(回帰)係数のレンジを求めます。レンジとは、最大値−最小値のことです。この値が大きいほどその要因が人気度に効いていることになります。メインのレンジは6.20―0.00=6.20となります。このようにしてすべての要因のレンジを求めると表10のようになります。

表10 各要因のレンジ
要因
レンジ
メイン
6.20
メインの量
3.15
おかず
4.92
価格
2.93

 
この表10を棒グラフにしたものが図2です。

図2 要因の効き方

 図2からメインが大きな比重を占めていることがわかります。次におかずの影響が大きいようです。メインの量、価格は同程度です。女性会社員は自分が食べたいものを重視している、ことがわかります。

 しかし、コンビニにとっては、人気ばかりを考えるわけにはいきません。ほどほど人気があり、しかも売上に貢献する弁当を見つける必要があります。いろいろ組み合わせてみましょう。メインはオムライス、量は多め、おかずはなし、価格は630円とすると(1)式より

−3 .43+6.20+3.15+2.88+0=8.8点

また、別の組み合わせを考えると、メインはオムライス、量は普通、おかずは煮付け、価格は500円とすると(1)式より

−3 .43+6.20+1.03+4.92+0.40=9.12点

このように、いろいろな組み合わせが考えられます。アンケートを取ったときに、「必ず買う」は10点でした。ですから、10点に近ければ近い程、売れるかつ人気のある弁当であると考えることができます。

5.まとめ

 女性会社員に人気のあるコンビニ弁当はどのようなものか探るための手順をまとめると以下のようになります。

@弁当を構成する要因(使用したい項目)と水準(項目の中身)をリストアップする

Aアンケート表を作るために、直交表に要因と水準を割りつける

Bアンケートを集計し、平均値を人気度とする

C割り付け表を回帰分析用に作り直す(アンケートを0、1で表す)

D人気度を被説明変数、割り付け表を説明変数として回帰分析を実行する

(注)要因ごとに1列ずつ削除する

E回帰分析結果の各水準の回帰係数から、人気度を表す式を作る

(注)削除した水準列の回帰係数は0とする

F人気度が高くなる要因と水準の組み合わせをとりあげ、10点に近く、かつ売上に貢献する弁当を探す

Gどの要因が効いているか要因分析をおこなう(各要因の最高水準 ?最低水準の値をだし、要因ごとに比較する)

 以上御紹介したことは人気のある弁当のコンセプトを開発する方法です。ここでは女性会社員向けコンビニ弁当でしたが、弁当に限りません。色々な商品のコンセプトの開発に適用できます。例えば、ヒットする和定食メニュー、リフレッシュ休暇旅行、学生の海外研修旅行、携帯電話、ゲームソフト、金融商品、等です。コストをかけないで手軽にできる方法です。読者もヒットする商品開発にチャレンジしてみせんか。

 

〈参考文献〉
  1. 上田太一郎 『データマイニング事例集』(1998)、共立出版
  2. 上田太一郎 『データマイニング実戦集』(1999)、共立出版

トップページに戻る