Translate

研究について2:科学を読み解く(統計1)

こんにちは、
ちまたで「これは科学的に証明されている」とか言うけど、実際本当に意味を分かっている人っているのかな? 自分で論文を読んでみたいけど、統計学はわからないし、数字は苦手。。。という方のためにこれから出来るだけ分かりやすく統計学を少しずつ解説してゆき、そのうち一人で科学論文が理解できる!手助けが出来たらいいです。

今回は例を使って簡単に統計をまとめてみます。
 まず、あなたはある国の王になって何百キロに渡る面積の山や森林を得たとしましょう!あなたは環境問題を真剣に考えていて、国民に「森林の木々の平均の高さが30mになるまで木を切ってはいけない」というルールを作ったとしましょう。そこで、国民が科学者のところにやってきて、いつになれば木が切れるか聞いてきました。

ここで一番の問題は、森林の木の長さ全てを測っていたら一生あっても足りない!と言う事実。そこで、科学者は統計学を使います。
まずどうするかというとサンプルを取るのです。何万本もある森林の木の中から今回は100本だけ長さを計り、そのサンプルから全体の傾向を推し量ります。つまり、サンプルの平均から全体の平均を推測するのです。まず、平均値を測ります。例えば100本の平均が40mだとしましょう。しかし、木の中にはばらつきがあります。ただ、その「平均(M)」が40m。

 例として, (40,39,35,43,28,48,36,42,45,40,40,46) 12本の木を測って、それが40mちょうどの物もあれば40mより短いものも、40よりずいぶん短いもの(28)ずいぶん平均より長いもの(48)もあります。しかし、この平均は、40.166m です。これはサンプルだけではなく、全体に対しても同じ事が言えます。

 では、この「ばらつき」を表した物が標準偏差(SD)といいます。平均はアベレージで、標準偏差はその100本がそれぞれ平均からどれだけばらついているか、という指標なんですね。標準偏差が低い程ばらつきがない、つまり100本にたような長さ、ということです。上の12本の木の例で言うと、標準偏差は5.424。この数字が大きければ大きい程、ばらつきが多い、つまり、「傾向」という物自体がない可能性もある、と言う事です。詳しい話はまた次に回します。

次に、問題になるのが、ではこの「100本の木」の平均と標準偏差がその他全てを表した数字なのでしょうか?例えば、もし違う100本をサンプルしていたら平均は28mかも知れませんし45mかも知れません。40と28では結論が変わってきますよね?

ここで、使うのが統計の知識になります。まず、森林の木の平均の長さ(全体)を35mだと仮説を立てます。
もし95%の確立でその100本のサンプルの平均(40m)が全体の平均値(35m)よりも統計学的に長い、と計算してなった場合、その否定して「これはサンプルが35mよりも長い」と結論する、と決めるのです。ここで大事なのは、「絶対に長い」言っているのではなく、たとえ違うサンプルを取っていたとしても、その平均が35mである可能性は5%の確立でしか起きない(100 - 95の5%)ので* 確率的に非常に起こりづらい = 仮説を否定して、「森林全体の平均が35m以上という自信が科学的にある」ということなんです。だって95%って自信もっていいですよね?ちなみに、多くの科学では失敗を回避するため(つまり5%に入ってしまう可能性を避けるため)、この95%を使わず、99%の確立の時のみ仮説を否定する場合があります。
*(実際この例では5%の半分は平均が35mより低い可能性なので本当は2.5%)

ここで、大事なポイントがいくつかあります。
1)統計は多くの場合全体とサンプルを比べる。そしてサンプルから得たデータで全体を「推測」するのです。多くの場合、全体を知る事はできないか、時間やお金が掛かりすぎるため現実的ではない。だからサンプルを取って、全体を考えるのです。

2)まず仮説を立てる。その時に、その仮説を否定できた場合、森林の平均は35m以上だ!(以下だ!)と言える。

3)仮説を立てた時、あらかじめ、何%の確立で平均が上回った(もしくは下回った)場合仮説を否定するかを決めておく。後で決めるのはルール違反。(大体95か99%)。これをp-value(p値)という。p値は1(100%)引く確立なので1 - 0.95= 0.05つまり、p=0.05か1 - 0.99 = 0.01。つまりp値が0.05以下の場合、サンプルの平均が森林の平均とさほど違わない確立が5%以下だと言う事。今まで説明してきた事の逆の言い方ですね。

4)統計学は「絶対にこうだ」という結論はない。常に、自分たちの出した結論が間違っている可能性を含んでいる。つまり、こうだ!というのではなく、「何となく決めた数字じゃなくてしっかり確率論で計算した結果、ほとんど起こりえないから否定しちゃってもいいと思うよ」という意味です。

論文を読む時、p < 0.05とかp<0.01というのが多くの場合大事になってきます
今回の例で、95%の確立以上で「森林の平均はすでに35m以上だ」と言う、と決めた場合、科学者はあらかじめp=0.05に設定します。そして、サンプルの平均値を出したり、標準偏差を計算したり、森林全体の標準偏差を予測する計算をしたりします。そして森林全体の平均35mとサンプルで得た40mという数字を統計的に比べて、その答えの数字が0.05以下だった場合、科学者は「統計的に有意」と言い、初めに立てた35mを否定して、「今もうすでに森林の平均は35mを超えているだろう」と結論します。
もしp > 0.05の場合、始めの仮説を否定しません。そして「統計的に有意ではない」と言います。つまり、35mと40mって統計的にそんなに変わらないと言う意味です。くだけて言うと「今回のサンプルの平均は40mだったけど他のサンプルを取った場合、結局35mぐらいになっちゃうよ。だから、森林の平均はまだ35mぐらいなので、もうちょっと森林の成長を待ちましょう。まだ切っちゃ駄目!」という結論になります。

統計学は難しいし、複雑で、それを使いこなすには多くの時間と知識が必要です。しかし、それを読み解く力をつけるのはそんなに難しいことではないのです。要はこの聞き慣れない専門用はどういう意味で、この数字は何を指しているか、を理解すれば、科学を理解できます。



0 件のコメント:

コメントを投稿