g-kentei-kei - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

UCB方策

UCB方策解説 UCB方策（Upper Confidence Bound）は、主にバンディット問題で用いられる行動選択ルールです。「これまでの平均報酬が高い行動」と「まだあまり試しておらず不確かさが大きい行動」をバランスよく選ぶことを目的...

2026.01.08

Web教科書

ε-greedy方策解説 ε-greedy方策（イプシロン・グリーディ方策）は、強化学習における代表的な行動選択ルールです。「既に分かっている最適行動を活用しつつ、一定の確率で新しい行動も試す」ことで、探索（Exploration）と活用...

2026.01.08

Web教科書

Q学習 (Q-learning) 解説 Q学習（Q-learning）は、強化学習において最も代表的な手法の一つです。「ある状態で、ある行動をとったときに、将来どれくらいの報酬が得られるか」を表す値、すなわち「行動価値関数 Q(s, a)...

2026.01.08

Web教科書

TD誤差 (Temporal Difference Error) 解説 TD誤差（Temporal Difference Error）とは、強化学習において「AIの予測が、実際の結果とどれくらいズレていたか」を表す数値です。このズレを修正し...

2026.01.08

Web教科書

Actor-Critic (アクター・クリティック) 解説 Actor-Criticとは、強化学習において「行動する人（Actor）」と「評価する人（Critic）」の2つの役割を分けて学習させる、ハイブリッドな手法です。「選手」と「コー...

2026.01.08

Web教科書

方策（Policy）解説方策（Policy）とは、強化学習のエージェントが「ある状態において、どのような行動をとるか」を決めるための「戦略」や「ルールブック」のことです。通常、ギリシャ文字のπ（パイ）で表されます。エージェントは、こ...

2026.01.08

Web教科書

トピックモデル (Topic Model) 解説トピックモデルとは、大量の文書データから、その裏側に潜んでいる「トピック（話題・テーマ）」を統計的に推定する、教師なし学習の手法です。「1つの文書には、複数のトピックが混ざっている」トピ...

2026.01.08

Web教科書

特異値分解 (SVD: Singular Value Decomposition) 解説特異値分解（SVD）とは、ある行列（データ）を、3つの行列の積に分解する線形代数の手法です。これにより、データの中に隠れている「本質的なパターン（潜在...

2026.01.08

Web教科書

デンドログラム (Dendrogram) 解説デンドログラム（樹形図）とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状（木構造）に可視化した図のことです。図の読み方：高さ＝「似てなさ」デンド...

2026.01.08

Web教科書

多次元尺度構成法 (MDS: Multi-Dimensional Scaling) 解説多次元尺度構成法（MDS）とは、個体間の「距離（類似度）」の情報だけをもとに、それらの位置関係を2次元や3次元の空間上に再現（可視化）する次元削減手法...

2026.01.08

Web教科書