相 関

2つのデータ(変数)が、かなりの程度の規則性をもって、同時に変化していく性質を相関という。
また、片方の変数の値が決まれば、もう一方の変数の値が確定するわけではないが、関連性が認められるとき相関関係があるという。

相関関係があるというのは、直ちにその2つの変数間に因果関係があるというのではない!
問題の糸口がここにあるかもしれないということを示しているのにすぎない。

相関は、量的データ間で行うことが多いが、質的データ間や質的データと量的データの組み合わせでも行える。
相関関係の程度を表す数値に、扱うデータ(変数)の種類によって相関係数、順位相関係数、独立係数、相関比がある。

これらの係数はー1から+1までの値をとり、±1に近いほど相関関係が強くなり、0に近づくと弱くなる
+1に近いと正の相関で、2つのデータ(変数)が似たような変化をしていることを示している。
ー1に近いと負の相関で、2つのデータ(変数)が反対の変化をしていることを示している。

相関係数が高いほど相関関係があることを示す。しかし、どんなデータ(変数)間であろうと、必ず相関係数は出る
そこで、本当に相関関係があるのか検証するために、相関を行う際には、有意差(独立性)の検定を行う
検定の結果、有意確率が5%未満であれば、相関関係があると考えられる

※量的データ

1.単相関

2つの量的データ(変数)間の相関関係を検証する。

ある中学校の生徒の身長と体重の関係

身長

体重

146
145
147
149
151
149
151
154
153
155

45
46
47
49
48
51
52
53
54
55

r(相関係数を意味する)=0.916 ← 検定結果、1%未満で有意
身長と体重は強い正の相関関係がある。→ 身長が高いと体重も重い傾向にある。

2.偏相関

相関係数は、明らかに関係がなさそうなデータ(変数)間でも現れる
単相関では、2つのデータ(変数)を選択するだけで、他のデータ(変数)の影響を反映しない

多くの量的データ(変数)がある場合、単相関だけでは2つのデータ(変数)間に真の相関があるかどうかを判定できない。
そこで、他のデータ(変数)の影響を一定と考えた上で真の相関を求める場合は、偏相関を使う。
ただし、多くの量的データ(変数)の中から、2つのデータ(変数)間の相関関係を見つけ出すためには、単相関よりも偏相関のほうが間違いのない結果が出ていることを示しているにすぎない

ある小学校の6年生について、100人をランダムに選び、社会科のテスト成績、ここ1週間における社会科の学習時間、知能指数を調べた。
テスト成績と学習時間の単相関係数は0.8。
テスト成績と知能指数の単相関係数は0.5。
学習時間と知能指数の単相関係数は0.4であった。
テスト成績と知能指数の偏相関係数は? ← 学習時間の影響を受けた相関係数が求められる。

r=0.327 ← 検定結果5%未満で有意
テスト成績と知能指数は正の相関関係がある。しかし、単相関係数よりも低くなっている。

※順位データ

1.スピアマンの順位相関

2つのデータ(変数)が量的データ(変数)であっても、順位付けされたものである場合。

口紅に対するAさんとBさんの評価

口紅

Aさんの順位

Bさんの順位

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11

       2
       1
       3
       3
       6
       8
       5
       7
       9
       9
       9

       1
       3
       2
       4
       4
       4
       4
       8
      10
      11
       9

r=0.8705 ← 検定結果1%未満で有意
AさんとBさんの口紅に対する評価は似ている

 ◎3つ以上のデータ(変数)に対して順位付けをした場合は、その順位付けが一致しているかを検証する方法がある。
  → ケンドールの一致係数(SPSSでは、ノンパラメトリック検定→K個の対応サンプルの検定の中にある)

※質的データ

1.クラメールの独立係数

2つの質的データ(変数)間の関連度合いを検証する。
質的データについては、通常クロス集計を行い、カイ2乗検定で有意差があるか検証する。
しかし、検定で有意差があった場合、2つの質的データ(変数)間の関連度合いを検証するのに独立係数を使う。
ただし、クロス集計結果が2×2表だった場合は、ファイ係数を使う。

相関があるかどうかについては、独立性の検定を行う。

第6章のクロス集計結果

出身地と支持政党の関係についてのクロス集計結果

 

A政党

B政党

C政党

 合計

西部

169

  28

142

339

東部

   82

  36

121

239

南部

201

149

373

723

合計

452

213

636

1301

カイ2乗検定の結果
P値(Pearsonのカイ2乗値)・・58.75 有意確率・・0.000
出身地と支持政党の間に有意差がある→関連がある

   独立係数・・0.150  有意確率・・0.000
   出身地と政党には関連はあるが、度合いは低い。

   ◎クロス集計結果が2×2表になった場合

 

好き

嫌い

男性

100

150

女性

  80

  60

イェーツの補正後のP値・・9.934  有意確率・・0.002
性別と好みの間に有意差がある。→関連がある

ファイ係数・・ー0.165  有意確率・・0.001
弱いながらも、男性と女性では、好みが逆である関係にある。

※量的データと質的データの組み合わせ

1.相関比

質的データ(変数)と量的データ(変数)間の相関関係を検証する。

年齢と好きな商品の関係

商品名

年齢















 29
 32
 35
 36
 38
 40
 41
 43
 48
 20
 22
 24
 29
 35
 38

相関比・・0.604
商品の好みと年齢には、正の相関関係がある。