検定は必ずやるものなのか?
本書p.125でも解説しましたが、統計的仮説検定を行う場合は、必ず「実数ベース」で、数値に意味があるかどうかを検討しましょう。
「数値」とは例えば……
差について検定を行うなら、実数の差。
無相関の検定を行うなら、実際の相関係数。
本書の事例1で触れたダイエットの事例で、こういう場合を考えてみます。
この事例では、ダイエットを試みる前(ビフォー)とダイエットを試みた後(アフター)で体重が増えた人はいませんでした。
しかし「逆効果だった」という場合もあるかもしれません。
ダイエットを試みる場合ならば、体重は減っていると良いのですが、増えてしまった人もいる場合もあるでしょう。
ダイエットの事例であれば、ダイエットを試みる前後で、体重が減っていなければ意味がないこと、そしてダイエットによって体重減少の効果を、標本によって得られた結果から、母集団(この事例では、ターゲットのうち、まだ利用していないお客様)にも同様に体重減少の効果について、統計学的に説明できるから「検定」を行うのです。
ここで、統計的仮説検定に入る時の考え方を示しておきましょう。
- 母集団から抽出したデータであるか、母集団が想定できるデータだと良いでしょう
- ダイエットの前後で体重の増減をヒストグラムで分布を把握しましょう
- そもそも体重増加をしている人が想定している人数以上であれば、それはどこに問題があるのかを検討する必要がありそうです
- 全体的、またすべての人(標本)の体重が減っている場合、その減っている度合いを確認します
- 体重の実数だけで明らかに意味のある現象度合いであれば、むしろ検定をやる必要はないかもしれません
- また、サンプルサイズが数百行や1,000行を超えるような場合も、検定はやらなくても良いかもしれません
サンプルサイズが多い状態とは、母集団に占める標本の割合が多いということです。
サンプルサイズが多くなればなるほど、母集団の実態に近づく、つまり有意になりやすいという性質があります(p.102参照)。