g-kentei-kei

Web教科書

UCB方策

UCB方策 解説 UCB方策(Upper Confidence Bound)は、主にバンディット問題で用いられる行動選択ルールです。「これまでの平均報酬が高い行動」と「まだあまり試しておらず不確かさが大きい行動」をバランスよく選ぶことを目的...
Web教科書

ε-greedy方策

ε-greedy方策 解説 ε-greedy方策(イプシロン・グリーディ方策)は、強化学習における代表的な行動選択ルールです。「既に分かっている最適行動を活用しつつ、一定の確率で新しい行動も試す」ことで、探索(Exploration)と活用...
Web教科書

Q学習

Q学習 (Q-learning) 解説 Q学習(Q-learning)は、強化学習において最も代表的な手法の一つです。 「ある状態で、ある行動をとったときに、将来どれくらいの報酬が得られるか」を表す値、すなわち「行動価値関数 Q(s, a)...
Web教科書

TD誤差

TD誤差 (Temporal Difference Error) 解説 TD誤差(Temporal Difference Error)とは、強化学習において「AIの予測が、実際の結果とどれくらいズレていたか」を表す数値です。このズレを修正し...
Web教科書

Actor-Critic

Actor-Critic (アクター・クリティック) 解説 Actor-Criticとは、強化学習において「行動する人(Actor)」と「評価する人(Critic)」の2つの役割を分けて学習させる、ハイブリッドな手法です。 「選手」と「コー...
Web教科書

方策

方策(Policy) 解説 方策(Policy)とは、強化学習のエージェントが「ある状態において、どのような行動をとるか」を決めるための「戦略」や「ルールブック」のことです。通常、ギリシャ文字のπ(パイ) で表されます。 エージェントは、こ...
Web教科書

トピックモデル

トピックモデル (Topic Model) 解説 トピックモデルとは、大量の文書データから、その裏側に潜んでいる「トピック(話題・テーマ)」を統計的に推定する、教師なし学習の手法です。 「1つの文書には、複数のトピックが混ざっている」 トピ...
Web教科書

特異値分解(SVD)

特異値分解 (SVD: Singular Value Decomposition) 解説 特異値分解(SVD)とは、ある行列(データ)を、3つの行列の積に分解する線形代数の手法です。これにより、データの中に隠れている「本質的なパターン(潜在...
Web教科書

デンドログラム

デンドログラム (Dendrogram) 解説 デンドログラム(樹形図)とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状(木構造)に可視化した図のことです。 図の読み方:高さ=「似てなさ」 デンド...
Web教科書

多次元尺度構成法(MDS)

多次元尺度構成法 (MDS: Multi-Dimensional Scaling) 解説 多次元尺度構成法(MDS)とは、個体間の「距離(類似度)」の情報だけをもとに、それらの位置関係を2次元や3次元の空間上に再現(可視化)する次元削減手法...