Web教科書

Web教科書

確率と期待値

確率・期待値を理解する 確率・期待値は、G検定でも頻出の基礎統計です。特に期待値は「平均的にどれくらいの結果になるか」を表す重要な概念で、機械学習モデルの評価や意思決定にも深く関わります。 確率は「起こりやすさ」、期待値は「平均的な結果」を...
Web教科書

共分散

共分散を理解する 共分散は、2つの数値データがどのように一緒に変動しているかを表す指標です。相関係数の“元”となる概念であり、G検定でも頻出の統計用語です。 共分散の目的は「2つの変数が同じ方向に動くのか、逆方向に動くのかを知ること」です。...
Web教科書

相関係数

相関係数を理解する 相関係数は、2つの数値データの関係性を−1 〜 +1 の数値で表す指標です。散布図とセットで理解することで、データの関係性をより深く読み取れるようになります。 相関係数の目的は「2つの変数の関係の強さと向きを数値で表すこ...
Web教科書

分散と標準偏差

分散と標準偏差の違いを理解する この記事では分散と標準偏差はどちらもデータのばらつきを数値化したものですが似ている計算式のため混同しやすいです。 両者の違いは計算式の考え方を理解することで簡単に覚えることができます。 分散が理解できると、標...
Web教科書

Q学習

Q学習 (Q-learning) 解説 Q学習(Q-learning)は、強化学習において最も代表的な手法の一つです。 「ある状態で、ある行動をとったときに、将来どれくらいの報酬が得られるか」を表す値、すなわち「行動価値関数 Q(s, a)...
Web教科書

ε-greedy方策

ε-greedy方策 解説 ε-greedy方策(イプシロン・グリーディ方策)は、強化学習における代表的な行動選択ルールです。「既に分かっている最適行動を活用しつつ、一定の確率で新しい行動も試す」ことで、探索(Exploration)と活用...
Web教科書

UCB方策

UCB方策 解説 UCB方策(Upper Confidence Bound)は、主にバンディット問題で用いられる行動選択ルールです。「これまでの平均報酬が高い行動」と「まだあまり試しておらず不確かさが大きい行動」をバランスよく選ぶことを目的...
Web教科書

バンディットアルゴリズム

バンディットアルゴリズム(Bandit Algorithm) 解説 バンディットアルゴリズムは、「複数の選択肢の中から、どれを選べば最も報酬(利益)が得られるか」を、実際に試行しながら効率よく見つけ出すための手法です。 名前の由来はカジノの...
Web教科書

方策勾配法

方策勾配法 (Policy Gradient Method) 解説 方策勾配法とは、強化学習において、エージェントの行動指針である「方策(Policy:パイ π)」を、ニューラルネットワークなどのパラメータで直接表現し、報酬が増える方向にそ...
Web教科書

REINFORCE

REINFORCE (Monte Carlo Policy Gradient) 解説 REINFORCEとは、方策勾配法の中でも最も基礎的なアルゴリズムで、「モンテカルロ法」ベースの学習手法です。 「テストが終わってから、まとめて見直す」 ...