統計

【差の検定】統計手法の選び方を数式を一切使わず分かりやすく解説します!!

どーもー!!ナツです!!
今日はどうしたのー?

統計を考えてるんだけど、どれを選んだらいいのか全く分かんないよー

研究を行うときに一番いやな思いをするのは統計手法の選定ではないでしょうか。

「統計アレルギー」という言葉があるくらい研究初心者には高いハードルとなってしまっているのが現状だと思います。

研究のテーマを決めて、研究デザインも何となくでも固まったのに、次は統計手法を考えてこいなんて言われて、途方に暮れている人も多いと思います。

実際に統計ではp値やt検定、wilcoxon検定などの横文字が多く、その違いも理解がしにくいですよね。

この記事では、統計の手法選択に悩んでいる、統計の基礎を学びたいという人に向けて、統計手法の選び方について難しい数式は一切なしで分かりやすく解説していきます。

今回は差の検定編ということで、差の検定に絞って解説をしていきます。

この記事を読んでもらえれば、差の検定では基礎的な統計の選択で困ることがなくなると思います。

統計手法の選択の悩みはさっさと解決して、スムーズな研究遂行を目指しましょう。

差の検定とは

 
差の検定とは読んで字のごとく、異なる2つのグループの差に違いがあるのかを検定します。
 
  • ストレッチをした前と後で柔軟性に違いがあるのか検定したい
  • A薬を飲んだグループとB薬を飲んだグループでは1か月後の血圧に違いがあるのかを検証したい。
このような場合に差の検定を使用します。
 
要は2つのグループ間のデータの比較をしたいときには差の検定を選択するというわけですね。
 
差の検定にはいくつか種類があります。
 
どの差の検定を使えばよいかは「対応があるかないか」「尺度水準」によって決まります。

対応があるかないか

「対応がある」データとは、比べたいデータ同士が同じ対象から収集されたデータであることを指します。
 
「ストレッチをした前と後の柔軟性の比較」では、ストレッチ前の柔軟性とストレッチ後の柔軟性を比較するわけですが、このデータは同じ人のストレッチ前後のデータとなります。
 
このような場合を「対応のあるデータ」と呼びます。
 
反対に「対応のない」データとは比べたいデータ同士が異なる対象から収集されたデータであることを指します。
 
上の例の「A薬を飲んだグループとB薬を飲んだグループでは1か月後の血圧」では、A薬を飲んだ人とB薬を飲んだ人は別人です。
 
このような場合は、「対応のないデータ」となります。
 
まずは、自分のデータが「対応のあるデータ」なのか、「対応のないデータ」なのかを鑑別してみましょう。
【t検定の選び方】対応のある?対応のない?適切な選び方を徹底解説!! 統計手法の選び方は初心者が必ずつまづくポイントですよね。   統計アレルギーという言葉が生まれるくらい、統計手法は複雑に見え...

パラメトリックデータかノンパラメトリックデータか

パラメトリックデータかノンパラメトリックデータかは尺度水準によって決められます。
 
尺度水準には
 

【名義尺度】
データを区別するためにつけた数値(性別、血液型など)

【順序尺度】
データの大小に意味はあるが、その間隔が一定ではない数値(順位、心理尺度など)

【間隔尺度】
データの大小関係とその間隔の差に意味があるが、0は相対的な意味しかもたない数値(温度、西暦など)

【比率尺度】
データの大小関係とその間隔の差に意味があり、0が絶対的な意味をもつ数値(長さ、身長、体重など)

があります。下の記事で詳しく解説しているので読んでみてください。
【尺度水準とは】研究初心者にも分かりやすく、実例つきで徹底解説!! 研究を始めたばかりで統計に苦手意識を持っている人は多いと思います。   頑張ってデータを取って、「さあ解析を始めよう」としたとき...
統計手法の選定の際に必要なのは順序尺度なのか、間隔尺度もしくは比率尺度なのかを鑑別することです。
 
順序尺度の場合はノンパラメトリックなデータ間隔尺度・比率尺度の場合はパラメトリックなデータと呼ばれます。
 
自分のデータがノンパラメトリックデータなのか、パラメトリックデータなのかを鑑別しましょう。

統計手法の選び方

自分のデータの分類が終われば、次はいよいよ統計手法の選択です。
 
ここまでで、自分のデータが「対応のあるデータ」or「対応のないデータ」、「ノンパラメトリックデータ」or[パラメトリックデータ」の鑑別が出来ていると思います。
 
あとはそれぞれの組み合わせで統計手法は決まります。組み合わせと統計手法は以下の通りです。
 
  パラメトリックデータ ノンパラメトリックデータ
対応のあるデータ 対応のあるt検定 wilcoxon検定
対応のないデータ 対応のないt検定 Mann-Whitney検定
例えば、対応のあるデータでパラメトリックデータであれば、「対応のあるt検定」を使用し、対応のないデータでノンパラメトリックデータであれば、「Mann-WhitneyのU検定」を使用します。
 
試しに上の「A薬を飲んだグループとB薬を飲んだグループでは1か月後の血圧」で考えてみると、A薬とB薬を飲んだ人はそれぞれ別人のため、対応のないデータ、血圧は比率尺度であるとされているのでパラメトリックデータとなります。
 
そのため、この際に使用する統計手法は「対応のないt検定」となります。

備考

ここまでは基礎的な統計の選定手法の解説を行いました。
 
ここからはもう少し突っ込んだ話をします。パラメトリックデータとノンパラメトリックデータについてです。
 
これらは尺度水準で決まるということについては間違いではないのですが、正確に言うと「データが正規分布に従うか否か」ということが重要になります。
 
間隔尺度であってもそのデータが正規分布に従わないのであればノンパラメトリックデータとして扱うことが推奨されます。
 
これはパラメトリックデータの検定がデータが正規分布に従っていることを前提において検定を行うことに起因します。
 
正規分布に従うか否かについてはShapiro-Wilk検定やジャック・ベラ検定などで検証できますが、検定数が多くなると、研究全体の信頼度が下がる多重検定性の問題が起こってきます。
 
そこで、僕はすべてのデータはノンパラメトリックなデータとして扱って検定手法を決めても良いと考えています。
 
つまり、対応があるかないかだけを考えて、wilcoxon検定かMann-Whitney検定を選択するということで十分統計手法の選択になりうるということです。

まとめ

【対応のあるデータかないデータか】
2つのグループのデータが同じ人から収集されたか、別の人から収集されたか

【パラメトリックデータかノンパラメトリックデータか】
尺度水準を考えて、データがパラメトリックデータかノンパラメトリックデータかを鑑別する

【統計手法の選び方】
対応のあるデータ×パラメトリックデータ⇒対応のあるt検定

対応のないデータ×パラメトリックデータ⇒対応のないt検定

対応のあるデータ×ノンパラメトリックデータ⇒wilcoxon検定

対応のないデータ×ノンパラメトリックデータ⇒Mann-Whitney検定

いかがだったでしょうか。少しでも参考になれば幸いです。
 
正しく統計手法を選択して、楽しい研究ライフを送りましょう。
RELATED POST

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA