そのデータ,正規分布してる?

 最近データを統計処理している関係で,統計の話題が多くなる.今回はデータが正規分布しているかどうかの検定について.

多変量解析の前に相関行列を見よう

「学力の経済学」を読む

Excelのピボットテーブルでクロス集計から統計解析まで

正規分布しているかどうかが,なぜ重要なのか?

 統計学的検定には,データが正規分布していることを前提にしている場合が多い.だが,実際には正規分布しているデータはあまり多くない.特に,収入などの経済活動においてはべき分布など偏っていることのほうが多い.正規分布を前提に検定を行うと,誤った結論を導くことになりかねない.これは政策決定において決定的な誤りを犯す原因になるのだが,なぜかあまり重要視されていない.

 かくいう俺も統計を系統立てて学んだわけではない.ただ,相関係数を求める際に Pearson 相関係数を用いるべきか,Spearman 相関係数を用いるべきか判断に迷った際の基準が欲しかった.

そもそも,正規分布とは?

正規分布の例.完全ではないが左右対称と言って良い
正規分布の例.完全ではないが左右対称と言ってよい

 数学的な定義はさておき,左右対称の棒グラフ,と覚えておけば良い.上の図は実際に扱っているデータの度数分布表を作成したものだ.まあ左右対称と言っていいのではないだろうか.こういうデータには Pearson 相関係数を使ってよい.

べき分布など,正規分布でないデータとは?

べき分布の例.こういうデータに正規分布を前提にした検定を行うとまずい
べき分布の例.こういうデータに正規分布を前提にした検定を行うとまずい

 一方,ふたつ目の図はべき分布の例である.こういうデータは煮ても焼いても食えない.対数変換などの方法もあるらしいが,素直に Spearman 相関係数(順位相関係数ともいう)を用いるべきである.

検定の前に,データの分布を見よう

 大事なことなのでもう一度書く.統計学的検定の前に,必ずデータの分布を見よう.その検定法,正規分布を前提にしたものではないか?正規分布していないデータを当てはめて大丈夫なのか?

形を見るだけで不安なら,正規性の検定をしよう

 ここからは SPSS を前提に話を進める.データセットのファイルはすでに開いているものとする.

SPSSで正規性検定を行う

 メニューから「分析」「記述統計」「探索的…」と進み,ダイアログを開く.

SPSSの「分析」「記述統計」「探索的...」で正規性検定を行う
SPSSの「分析」「記述統計」「探索的…」で正規性検定を行う

対象の変数を「従属変数」に入れる

 対象とする変数を左のパネルから右上の「従属変数」に入れる.一つだけでなく,いくつも選べる.「因子」や「ケースのラベル」はとりあえず無視.

左のパネルから検定する変数を右上の「従属変数」パネルに入れる
左のパネルから検定する変数を右上の「従属変数」パネルに入れる
変数が入った状態
変数が入った状態

「作図…」ボタンをクリック

 右上に「作図…」ボタンがあるのでクリック.「探索的分析:作図」ダイアログが開く.「正規性の検定とプロット」にチェックを入れる.

「探索的分析:作図」ダイアログ.「正規性の検定とプロット」にチェック
「探索的分析:作図」ダイアログ.「正規性の検定とプロット」にチェック

 「続行」をクリックしてダイアログを抜ける.

OKをクリックすると検定が行われる

 下図は検定結果の一部分を切り抜いたもの.三段目の「正規性の検定」が重要である.「Kolmogorov-Smirnow の正規性の検定」の中の「有意確率」の数値が重要だ.

正規性の検定が行われた結果.Kolmogmorov-Smirnowの正規性の検定の,有意確率に注目
正規性の検定が行われた結果.Kolmogmorov-Smirnowの正規性の検定の,有意確率に注目

有意確率が 0.05 未満なら「正規分布ではない」

 この有意確率が 0.05 未満である場合は「正規分布ではない」ということである.こういう場合,厳密には Pearson 相関係数は使えない.Spearman 順位相関係数を用いるべきである,ということになる.

 実際には Pearson 相関係数でやっつけてしまうことも多いんだけどね.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください