統計

【p値とは?有意差とは?】統計用語の基礎知識を分かりやすく解説!!

どーもー!!ナツです!!
今日はどうしたのー?

p値とか有意差とかよく聞くし大事なのも分かるんだけど、あれって何を表してるの?

研究者は一生p値に振り回される気がします。

統計ソフトにデータを入力して、統計を開始。

「有意差出ろ!」なんて念じながら結果のp値を見て、一喜一憂して、試行錯誤を繰り返す。

それも研究の醍醐味だし、面白い部分だなって常々思っています。

でも皆さん、そもそもp値の意味って正確に理解できているでしょうか。また、有意差ってなんだと思いますか?

何となくp値が0.05以下であれば有意差があるってことでOKと理解している人も少なくないと思います。

間違ってはいません。

でも、p値にもちゃんとした意味があり、正確には有意差はp値が0.05以下であることではないんです。

この記事では統計を学び始めている人、きちんとして統計知識を身につけたい人に対して、p値や有意差などの基本的な統計用語の意味を解説していきます。

この記事を読んでもらえれば、これらの統計の基礎知識がつき、今後の研究のためになると思います。

私自身、p値や有意差の意味を知ることで、論文の読み方や書き方が劇的に変わったと実感しています。

それでは、解説していきます。

【尺度水準とは】研究初心者にも分かりやすく、実例つきで徹底解説!! 研究を始めたばかりで統計に苦手意識を持っている人は多いと思います。   頑張ってデータを取って、「さあ解析を始めよう」としたとき...

帰無仮説

「いきなり難しい言葉が出てきたー」って思われるかもしれませんが、p値や有意差を説明する上では帰無仮説の説明は欠かせないので説明していきます。
 
言うほど難しくありません。帰無仮説とは証明したい仮説の逆の仮説と理解してもらえば良いです。
 
このままでは分かりにくいので例を出します。
 
「A薬を飲んだ人とB薬を飲んだ人の1か月の血圧には差がある」ということを証明したい場合、「A薬を飲んだ人とB薬を飲んだ人の1か月の血圧には差がない」とするのが帰無仮説です。
 
ちなみに「A薬を飲んだ人とB薬を飲んだ人の1か月の血圧には差がある」の方は対立仮説と呼びます。
 
帰無仮説は、検定において無に帰する、つまり否定されるためにある仮説です。
 
「差がない」ということを否定することで、「差がある」ことを証明するわけです。
 
「え?差があることを証明したんじゃダメなの?」と思われた方、ごもっともです。
 
でも対立仮説を証明することは全称命題的証明といい、実質不可能なんです。
 
例えば、「犬は喋らない」という証明をするためには地球上のすべての犬が喋らないのを確認しないといけないわけでそれは不可能ですよね。
 
でも「犬は喋らないわけではない」という反証証明であれば、喋る犬を1匹発見するだけで済みます。
 
ちょっと極端な話ですが、こんなイメージで、帰無仮説を否定する方が、証明的・統計的に簡単で都合がいいわけです。

p値とは

p値とは帰無仮説が成立する確率のことです。
 
p値のpとは「probability(確率)」の頭文字です。
 
つまりp値が0.02(2%)であれば、帰無仮説が成立する確率は2%だよってことです。
 
p値が小さければ小さいほど、帰無仮説が成立する確率が減少して、対立仮説が支持される確率が上がっていくというわけです。

有意差とは

有意差とは、p値が有意水準を下回り、対立仮説が支持されることは偶然では起こりえないことが証明されることを指します。
 
この有意水準は研究の中で研究者が決めて良い値です。
 
一般的には5%と設定するので有意差とはp値<0.05と思われているわけですが、研究によっては有意水準を1%とすることもあります。
 
ちなみに研究者が決めて良いといっても5%以上はあり得ません。
 
統計学の世界では5%以下の確率で起こる出来事はめったに起こり得ないこととして認識されているからです。
 
3%とかも見たことないですし、基本的には有意水準は5%で良いと思います。

具体的な例

上で書いたA薬を飲んだ人とB薬を飲んだ人の1か月後の血圧の比較で、ここまでの考え方を具体的にまとめてみましょう。
 
帰無仮説は「A薬を飲んだ人とB薬を飲んだ人の血圧の差はない」であり、対立仮説は「A薬を飲んだ人とB薬を飲んだ人の血圧の差がある」となります。
 
検定の結果、p値は0.038だった場合、帰無仮説が採用される確率は3.8%となります。
 
有意水準を5%とした場合、p値が有意水準を下回っているため、帰無仮説は棄却され、対立仮説が支持されます。
 
すなわち、「A薬を飲んだ人とB薬を飲んだ人の血圧の差がある」となるわけです。

p値の落とし穴

ここまででp値の意味は理解していただけたと思います。
 
でもこのp値には落とし穴があります。
 
上の血圧の例で言うと、p値は3.8%だったため対立仮説が支持されました。
 
でも、逆に考えると、3.8%の確率で帰無仮説が支持されてしまう可能性も残っているわけです。
 
統計学の世界では5%はめったに起こらないことと認定されているため、p値が1つなら問題がないです。
 
でも3.8%のp値が100個あったらどうでしょうか。確率的には3.8個は帰無仮説が支持されてしまうのです。
 
p値は確率である以上、増えれば増えるほどその確率は上昇してしまいます。「100個入っているボールのうち、99個の当たりボールを引けば1万円プレゼント、1個のはずれボールを引けば自分の全財産を没収」というくじがあったとすれば、引けば引くだけ没収される確率は増えますよね。
 
それと一緒で、論文中にp値が増えれば増えるほど、論文の信頼性は低下していきます。
 
また、自分が論文を書く際も不要な検定は出来るだけ省いて、p値は最小限にする必要があると思います。

まとめ

【p値とは】
帰無仮説が成立する確率

【有意差とは】
p値が有意水準を下回り、対立仮説が支持されることは偶然では起こりえないことが証明されること

いかがだったでしょうか。
 
意外と正しく理解していないこともあったのではないでしょうか。
 
この簡単な知識だけで論文の見方が変わります。
 
ぜひ正しく理解して、楽しい研究ライフを送りましょう。
RELATED POST

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA