相関とは
2 つ以上のものの間の関係です。大きく 3 つに分類されます。すなわち、正の相関、負の相関、無相関です。
正の相関は、一方が増えると、もう一方も増える関係です。負の相関は、一方が増えると、もう一方が減る関係です。一方が増えても、他方と関係ないのが無相関です。そして、相関の度合いを表すのが相関係数です。
相関係数は -1 ~ 1 の間をとります。
-1に近いほど負の相関が強く、1に近い方が正の相関が強いです。0に近い場合、相関がないことを表します。相関係数を求めるためには「偏差の積和平均」を求めておく必要があります。偏差の積和平均は「共分散」と呼ばれます。
例として
(身長,体重) について (180,110)、(160,85)、(140, 75) というデータがあるとします。身長の平均は 160、体重の平均は 90 です。したがって、各データにおける偏差は (20,20)、(0,-5)、(-20,-15) です。「偏差の積」は、それぞれ 400,0,300 となります。従って「偏差の積和」は 400+0+300 = 700 です。「偏差の積和平均」は 700/3 です。
偏差の積和平均を、身長の標準偏差、及び体重の標準偏差で割ると出てくるのが相関係数です。身長の標準偏差は √(400 + 0 + 400)/3 です。体重の標準偏差は√(400+25+225)/3 です。以上より、相関係数は 700/3 ÷ (√800/3 × √650/3) ≒ 0.97 となります。このデータから判断すると、かなり強い正の相関を、身長と体重は示すといえます。
回帰とは
y = f(x) というモデルをあてはめることです。回帰分析とは、適当なモデルをあてはめた上で分析を行うことです。一変数から一変数を予測するモデルによる回帰を単回帰分析といいます。単回帰分析でのモデルは y = ax + b です。つまり直線です。
データを散布図としてプロットした時、もっとも分布とフィットした直線を回帰直線といいます。回帰直線を用いることで、未知の片方のデータが得られたとした時、きっと他方がこのあたりという予想ができます。先程の身長、体重の例でいえば、身長が 190 ならきっと 120 ぐらいだろうといった予想になります。
回帰直線は、傾きと切片がわかれば求まります。
傾きは 「共分散/X の分散」で求めることができます。身長、体重の例で言うと、共分散は 700/3 で、X(身長) の分散は 800/3 です。従って、傾きが 7/8 です。
切片は 「Y(体重)の平均ー傾き × X の平均」 で求められます。例で言うと、90 ー 7/8 × 160 = -50 です。従って、回帰直線は y = 7/8 x ー 50 となります。仮に身長 240 なら、160kg だろうと予想できます。
ちなみに
「身長、体重」から「年齢」を予測する といった 2 変数以上に注目して、ある変数を予想するようなモデル (z = f(a,b,,,))による回帰は重回帰分析といいます。
コメント