ユークリッド距離を理解する
ユークリッド距離は、G検定でも頻出の「距離(類似度)」を測る基本的な指標です。特にクラスタリング(k-means)や近傍探索(kNN)など、データ同士の近さを測る場面で広く使われます。
ユークリッド距離は「2点間の直線距離」を表します。最も直感的で理解しやすい距離の概念です。
ユークリッド距離とは?
ユークリッド距離(Euclidean Distance)とは、2つの点の間の直線距離を表す指標です。中学校で習う「距離の公式」と同じ考え方です。
2次元の点 A(x₁, y₁)、B(x₂, y₂) の距離は次の式で求められます。
3次元でも同じ考え方で、z の差を追加するだけです。
このように、次元が増えても「差を2乗して足して平方根を取る」だけです。
計算例で理解する
点 A(1, 2)、点 B(4, 6) のユークリッド距離を求めてみましょう。
これは、3-4-5 の直角三角形として有名な距離です。
ユークリッド距離が使われる場面
- k-meansクラスタリング:データ同士の近さでグループ分け
- kNN(k近傍法):近いデータを探して分類・回帰
- 特徴量空間での距離計算:画像・音声・文章の類似度
特に k-means では、ユークリッド距離が「どのクラスタに属するか」を決める重要な基準になります。
まとめ
この記事では、G検定で頻出の「ユークリッド距離」について、定義・計算式・具体例を使ってわかりやすく解説しました。
- ユークリッド距離は「2点間の直線距離」
- 差を2乗して足し、平方根を取るだけ
- クラスタリングや近傍探索で広く使われる
- 直感的で理解しやすい距離指標
ユークリッド距離は、機械学習の基礎であり、データの「近さ」を理解するための重要な概念です。コサイン類似度と合わせて理解しておくと、G検定の問題にも強くなります。
