マルコフ決定過程 - G検定無料問題集｜解説付きでたくさん練習できる「G検定の森」

マルコフ決定過程（MDP：Markov Decision Process）

マルコフ決定過程（MDP）とは、強化学習の問題を数学的に表現するための「舞台設定」や「ルールブック」のようなものです。

「マルコフ性（未来は現在のみに依存する）」を満たす環境の中で、エージェント（AI）がどのような行動をとれば報酬を最大化できるかを考えるための枠組みです。

MDPは、主に以下の4つの要素で定義されます。G検定ではこの組み合わせが頻出です。

要素	記号	意味・具体例
状態 (State)	S	今どうなっているか。（例：将棋の盤面、ロボットの位置）
行動 (Action)	A	エージェントができること。（例：駒を動かす、右に進む）
遷移確率 (Transition)	T	行動した結果、次の状態へ移る確率。（例：80%の確率で前に進み、20%で滑る）
報酬 (Reward)	R	その行動が良かったのか悪かったのかの評価値。（例：ゴールしたら+100、壁にぶつかったら-10）