統計上の調査において
対象の集団全体を母集団といいます。例えば、日本人の身長と体重について調査し、平均や標準偏差を知りたいとします。日本の人口を約 1 億人とすると、約 1 億セットの (身長、体重)のデータ全体が母集団です。集団全体を調査することを全数調査といいます。一部分を調査し全体を推測するのが標本調査といいます。選ばれた集まりが標本です。
母集団において
変数 X の平均値、分散、標準偏差はそれぞれ母平均、母分散、母標準偏差といいます。一方、標本の平均値や分散、標準偏差はそれぞれ標本平均、標本分散、標本標準偏差です。
重要な点は、実際の統計調査の多くは標本調査で、母集団の性質を推測しているということです。平均を例にあげると、100 人程度を調査して出した身長の平均を持って、日本人の平均身長といっているかもしれません。統計学はこの標本調査により得られた部分的データから、どこまで何が言えるのかに関する体系的知見の集まりといえます。
先程の身長の平均について「母平均と標本平均は一致するのか?」と言われれば、大体一致します。日本人全体の身長の平均が 160 cm だったとして、日本人から 10 人選んできた時の身長の平均が 200 cm になることはまずありません。
母集団平均と標本平均の間には、中心極限定理と呼ばれる関係が成り立ちます。すなわち、『母集団の母平均が μ、母分散が σ2 の時、大きさ n の標本における標本平均を何度か測定すれば、標本平均は正規分布 N(μ、σ2/n) で近似される分布をとる』という関係です。
正規分布とは、平均付近にぎゅっと集まる分布でした。つまり、母平均値付近の値が、ちゃんと小数の標本平均で得られるということです。さらに、標本の数が大きいと、ばらつきも小さくできるということが示されています。
母集団と標本集団の違いをしっかりと意識すると共に、特に重要な統計量である平均について、中心極限定理が成立するという点をおさえておきましょう。
コメント