コサイン類似度 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

コサイン類似度を理解する

コサイン類似度は、G検定でも頻出のベクトル類似度指標です。特に自然言語処理やレコメンドシステムなど、「意味の近さ」や「ユーザーの好みの近さ」を測る場面で使われます。

コサイン類似度は「ベクトルの向きの近さ」を数値で表す指標です。ベクトルの長さ（スケール）には影響されないため、文書や特徴量の比較に適しています。

コサイン類似度（Cosine Similarity）とは、2つのベクトルがどれくらい同じ方向を向いているかを測る指標です。値の範囲は -1〜+1 で、以下のような意味を持ちます。

ベクトルの長さ（スケール）には影響されないため、「方向」だけで類似度を測れるのが特徴です。

ベクトル A, B に対するコサイン類似度は、次の式で定義されます。

\cos\theta = \frac{\vec{A} \cdot \vec{B}}{\|\vec{A}\| \|\vec{B}\|}

ベクトル A = [1, 2, 3]、B = [2, 0, 1] の場合：

\vec{A} \cdot \vec{B} = 1\times2 + 2\times0 + 3\times1 = 5

\|\vec{A}\| = \sqrt{1^2 + 2^2 + 3^2} = \sqrt{14}

\|\vec{B}\| = \sqrt{2^2 + 0^2 + 1^2} = \sqrt{5}

\cos\theta = \frac{5}{\sqrt{14} \times \sqrt{5}}

この値が 1 に近ければベクトルは似ている、0 に近ければ似ていないと判断できます。

この記事では、G検定で頻出の「コサイン類似度」について、定義・計算式・具体例を使って解説しました。

コサイン類似度は、機械学習の「特徴量の比較」や「類似検索」に欠かせない概念です。ベクトルの内積やノルムとセットで理解しておくと、G検定の問題にもスムーズに対応できます。