相関係数を理解する
相関係数は、2つの数値データの関係性を−1 〜 +1 の数値で表す指標です。散布図とセットで理解することで、データの関係性をより深く読み取れるようになります。
相関係数の目的は「2つの変数の関係の強さと向きを数値で表すこと」です。G検定でも頻出の統計指標なので、必ず押さえておきましょう。
共分散の考え方がベースになっているため、先にこちらも参考にすることをお勧めします。
共分散 – G検定 無料問題集|解説付きでたくさん練習できる「G検定の森」
G検定では相関係数の具体的数値を計算する問題は非常に複雑なために計算問題はほぼ出題されないと思って大丈夫です。
ただし、相関係数が−1 〜 +1 の数値を取るときにどんな値になるのか(どんな散布図になるのか)を知っておくと良いでしょう。
相関係数とは?
相関係数とは、2つの変数の関係性を −1 〜 +1 の数値で表したものです。
共分散では値のスケールがもの(cm→mへの変化等)によって大きく変化するため、共分散の値に対して標準偏差で割ることによって−1 〜 +1 の数値にスケールを合わせたものです。
- +1 に近い:強い正の相関(片方が増えるともう片方も増える)
以下のように勉強時間とテスト点数に完全に相関がある。勉強をすればするだけテスト点数があがる場合は相関係数は+1となります。

- 0 に近い:相関なし(関係が弱い)
以下のようなまったく相関がないものを指します。
勉強をしてもしても点数には全く関係ないという、勉強を例に出すと現実世界ではなかなか起きないケースです。(実際に計算するとサンプル数が少ないのでゼロにはならないですが、イメージとしてはこのような形です)

- −1 に近い:強い負の相関(片方が増えるともう片方は減る)
以下のように勉強時間が増えるにつれてテストの点数が下がるようなケースです。
相関係数は-1となります(勉強をすると逆に点数が下がるという現実世界ではかなり悲惨な例ですがあくまでイメージとしてとらえてください)。

散布図で点の並び方を視覚的に確認し、相関係数で数値的に確認する、という流れが基本的な使い方です。
相関係数の計算方法

計算式は参考までに解説していますが、飛ばしてしまって大丈夫です!
相関係数は、偏差の積の平均を、標準偏差で割ったものです。
(補足)
偏差:平均との差
式だけ見ると難しそうですが、やっていることはシンプルです。
- 平均からのズレ(偏差)を求める
- 偏差同士を掛け合わせる(偏差の積)
- その平均を求める
- 標準偏差で割ってスケールを整える
相関係数の具体的数値とデータとの相関
- +0.7 以上:強い正の相関
- +0.3〜+0.7:弱い〜中程度の正の相関
- 0:相関なし
- −0.3〜−0.7:弱い〜中程度の負の相関
- −0.7 以下:強い負の相関

正になるとき負になるときや係数の大きさによっておおよそどんな散布図になるか覚えておきましょう!
サンプルとしてどのくらいの値でどのような散布図になるのか記載しておきますね。
G検定では相関係数を選択する問題があります。ある程度目視で感覚を養っておきましょう。
相関係数:0.5

相関係数:0.75

相関と因果の違い
相関係数はあくまで「関係性」を示すだけで、「原因と結果」を示すわけではありません。
- 相関:2つの変数が一緒に変動する関係
- 因果:片方が原因となり、もう片方が結果として変動する関係
G検定でも「相関と因果の混同」は頻出の落とし穴です。
まとめ
この記事では、G検定で頻出の相関係数について、例を使いながら解説しました。
- 相関係数は −1 〜 +1 の範囲で関係性を表す
- 正の相関・負の相関・相関なしを数値で判断できる
- 相関は因果を意味しない
相関係数はデータ分析の基本であり、機械学習モデルの理解にも直結します。散布図と合わせて理解することで、データの関係性をより深く読み取れるようになります。
