Web教科書

Web教科書

マルコフ決定過程

マルコフ決定過程(MDP:Markov Decision Process) 解説 マルコフ決定過程(MDP)とは、強化学習の問題を数学的に表現するための「舞台設定」や「ルールブック」のようなものです。 「マルコフ性(未来は現在のみに依存する...
Web教科書

マルコフ性

マルコフ性(Markov Property) 解説 マルコフ性とは、「未来の状態は、『現在の状態』のみによって決まり、過去の履歴(どうやってそこに来たか)には一切影響されない」という性質のことです。 サイコロに「記憶」はない 最も分かりやす...
Web教科書

方策

方策(Policy) 解説 方策(Policy)とは、強化学習のエージェントが「ある状態において、どのような行動をとるか」を決めるための「戦略」や「ルールブック」のことです。通常、ギリシャ文字のπ(パイ) で表されます。 エージェントは、こ...
Web教科書

Actor-Critic

Actor-Critic (アクター・クリティック) 解説 Actor-Criticとは、強化学習において「行動する人(Actor)」と「評価する人(Critic)」の2つの役割を分けて学習させる、ハイブリッドな手法です。 「選手」と「コー...
Web教科書

TD誤差

TD誤差 (Temporal Difference Error) 解説 TD誤差(Temporal Difference Error)とは、強化学習において「AIの予測が、実際の結果とどれくらいズレていたか」を表す数値です。このズレを修正し...
Web教科書

デンドログラム

デンドログラム (Dendrogram) 解説 デンドログラム(樹形図)とは、データを似ているもの同士で順番にまとめていく「階層的クラスタリング」の結果を、ツリー状(木構造)に可視化した図のことです。 図の読み方:高さ=「似てなさ」 デンド...
Web教科書

特異値分解(SVD)

特異値分解 (SVD: Singular Value Decomposition) 解説 特異値分解(SVD)とは、ある行列(データ)を、3つの行列の積に分解する線形代数の手法です。これにより、データの中に隠れている「本質的なパターン(潜在...
Web教科書

トピックモデル

トピックモデル (Topic Model) 解説 トピックモデルとは、大量の文書データから、その裏側に潜んでいる「トピック(話題・テーマ)」を統計的に推定する、教師なし学習の手法です。 「1つの文書には、複数のトピックが混ざっている」 トピ...
Web教科書

アンサンブル学習

アンサンブル学習(Ensemble Learning) 1. 解説 アンサンブル学習とは、複数のモデル(学習器)を組み合わせて、単一のモデルよりも高い精度や汎化性能(未知のデータへの対応力)を得ようとする手法のことです。 ことわざの「三人寄...
Web教科書

バギング

バギング(Bagging) 1. 解説 バギング(Bagging)は、正式名称を「Bootstrap aggregating」と言い、その名の通り「ブートストラップサンプリング」と「アグリゲーティング(集約)」を組み合わせたアンサンブル学習...