統計

【t検定の選び方】対応のある?対応のない?適切な選び方を徹底解説!!

どーもー!!ナツです!!
今日はどうしたのー?

自分のデータは比率尺度だからt検定を使えば良いってところまでは分かっただけど…。
対応のあるt検定と対応のないt検定のどっちを使えばいいのー?

統計手法の選び方は初心者が必ずつまづくポイントですよね。
 
統計アレルギーという言葉が生まれるくらい、統計手法は複雑に見えてしまいます。
 
でも、一見複雑に見える統計手法も実は考え方はシンプルです。
 
この記事では、これからt検定を行おうとしている人に向けて、対応のあるt検定と対応のないt検定について、それぞれの違いとデータの選択方法について解説していきます。
 
この記事を読むことで、t検定の選択する時に対応のあるt検定と対応のないt検定のどちらを選択するべきか分かるようになります。
 
また、t検定だけでなく、他の検定を選択する場合に必要な「対応の有無」の知識も得ることができます。
 
今回は小難しい数式は抜きにして、「こういう時にはこっちのt検定」と判断できるように解説していきます。
  • 対応のあるt検定と対応のないt検定のどちらを使うか理解したい
  • 対応の有無について正しい知識が欲しい

統計について勉強している人は以下の記事で初心者向けの統計に関する書籍も紹介していますので、そちらもぜひ読んでみてください。今回解説している内容についても理解も深まると思いますよ。

t検定を使用する上での前提条件

t検定とは、異なる2つのデータの平均値に差があるのかどうかを確認するための統計手法です。
 
例えば、

  • A薬を飲んだ人とB薬を飲んだ人の血圧に差があるのか検定したい
  • ストレッチをした前と後で柔軟性に違いがあるのか検定したい
このような場合はt検定が用いられる可能性が高いです。
 
可能性が高いといったのはt検定を使用する上での前提条件としてデータが正規分布に従う必要があるからです。
 
正規分布の話をすると長くなるので、初学者の内は、尺度水準を考えて、間隔尺度や比率尺度の場合はt検定を使用すると理解してもらっても良いですが、厳密に差の検定を行場合には、正規性の検定を行ったり、ノンパラメトリックな手法を使ったりします。

尺度水準正規性については、別の記事でも解説しているので、そちらを参考にしてみてください。
 
さて、上の例の場合、前者は対応のないt検定を、後者は対応のあるt検定を使用します。
 
同じ差の検定ですが、なぜ手法が異なるのかを解説していきます。
 

対応のあるt検定

対応のあるデータに対しては対応のあるt検定を使用します。
 
対応のあるデータとは、条件を変えて同一個体群から反復して測定したデータのことをいいます。
 
つまり、比べたい2つのデータはどちらも同じ人から収集したということになります。
 
具体例を挙げると

  • ストレッチをした前と後で柔軟性の比較
  • 特別補習を受けた前と後での成績の比較
これら2つの比較したいデータは同一の人から収集されていることが分かると思います。
 
このように対応のあるデータは同一個体から反復して測定したデータ群となりますので、対応のあるt検定を使用します。
 
ちなみに対応のあるt検定はstudentのt検定として実施します。
 

対応のないt検定

対応のないデータに対しては対応のないt検定を使用します。
 
対応のないデータとは、条件の異なる2つ以上の個体群から収集したデータのことをいいます。
 
つまり、比べたい2つのデータはそれぞれ別人から収集したことになります。
 
具体例を挙げると

  • A薬を飲んだ10人とB薬を飲んだ10人の血圧
  • 都会の家庭10組と田舎の家庭10組の貯金額
比較したいデータは異なる人からそれぞれ収集されたものとなっています。
 
これらは対応のないデータとなりますので対応のないt検定を使用します。
 
ちなみに対応のないt検定はwelchのt検定として実施します。

なぜ使い分ける必要があるのか

ここからは統計手法の選択にはあまり関係がない話になるかもしれませんが、理論的に理解しておくことも重要だと思いますので、興味のある方は読んでみて下さい。
 
t検定に対応のあるt検定と対応のないt検定の異なる手法がある理由は
 
「比較したいデータの分散が等しいかどうか」によって計算方法が変わるからです。
 
データ同士の分散が等しい場合を等分散、等しくない場合を不等分散と呼び、分散が等しい場合は対応のあるt検定、分散が不等分散の場合は対応のないt検定を使用することになります。
 
最近は「t検定を行う前に等分散性を検討する必要がある」「対応のあるデータでも不等分散の可能性があるから全てwelchのt検定を使用すべきだ」などの意見もあります。
 
もっともだと思いますが、それはもう少しステップアップしてから考えれば良いかなと思います。
 
まず分析をやってみることも大切だと思います。
 

5.まとめ

【対応のあるt検定】
条件を変えて同一個体群から反復して測定したデータを比較するt検定
例:ストレッチをした前と後で柔軟性の比較

【対応のないt検定】
条件の異なる2つ以上の個体群から収集したデータを比較するt検定
例:A薬を飲んだ10人とB薬を飲んだ10人の血圧の比較

いかがだったでしょうか。
 
今回はt検定について、統計手法の選択に必要な「対応の有無」について解説を行いました。
 
この「対応の有無」の考え方はt検定に限らず、その他の検定においても重要な知識になります。
 
正しく理解して、適切な統計手法を選択できるようになりましょう。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA