Web教科書

マルコフ決定過程

マルコフ決定過程（MDP：Markov Decision Process）解説マルコフ決定過程（MDP）とは、強化学習の問題を数学的に表現するための「舞台設定」や「ルールブック」のようなものです。「マルコフ性（未来は現在のみに依存する...

2026.01.08

Web教科書

マルコフ性（Markov Property）解説マルコフ性とは、「未来の状態は、『現在の状態』のみによって決まり、過去の履歴（どうやってそこに来たか）には一切影響されない」という性質のことです。サイコロに「記憶」はない最も分かりやす...

2026.01.08

Web教科書

方策（Policy）解説方策（Policy）とは、強化学習のエージェントが「ある状態において、どのような行動をとるか」を決めるための「戦略」や「ルールブック」のことです。通常、ギリシャ文字のπ（パイ）で表されます。エージェントは、こ...

2026.01.08

Web教科書

Actor-Critic (アクター・クリティック) 解説 Actor-Criticとは、強化学習において「行動する人（Actor）」と「評価する人（Critic）」の2つの役割を分けて学習させる、ハイブリッドな手法です。「選手」と「コー...

2026.01.08

Web教科書

TD誤差 (Temporal Difference Error) 解説 TD誤差（Temporal Difference Error）とは、強化学習において「AIの予測が、実際の結果とどれくらいズレていたか」を表す数値です。このズレを修正し...

2026.01.08

Web教科書

デンドログラム (Dendrogram) 解説デンドログラム（樹形図）とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状（木構造）に可視化した図のことです。図の読み方：高さ＝「似てなさ」デンド...

2026.01.08

Web教科書

特異値分解 (SVD: Singular Value Decomposition) 解説特異値分解（SVD）とは、ある行列（データ）を、3つの行列の積に分解する線形代数の手法です。これにより、データの中に隠れている「本質的なパターン（潜在...

2026.01.08

Web教科書

トピックモデル (Topic Model) 解説トピックモデルとは、大量の文書データから、その裏側に潜んでいる「トピック（話題・テーマ）」を統計的に推定する、教師なし学習の手法です。「1つの文書には、複数のトピックが混ざっている」トピ...

2026.01.08

Web教科書

アンサンブル学習（Ensemble Learning） 1. 解説アンサンブル学習とは、複数のモデル（学習器）を組み合わせて、単一のモデルよりも高い精度や汎化性能（未知のデータへの対応力）を得ようとする手法のことです。ことわざの「三人寄...

2026.01.08

Web教科書

バギング（Bagging） 1. 解説バギング（Bagging）は、正式名称を「Bootstrap aggregating」と言い、その名の通り「ブートストラップサンプリング」と「アグリゲーティング（集約）」を組み合わせたアンサンブル学習...

2026.01.08

Web教科書