Web教科書 UCB方策
UCB方策 解説 UCB方策(Upper Confidence Bound)は、主にバンディット問題で用いられる行動選択ルールです。「これまでの平均報酬が高い行動」と「まだあまり試しておらず不確かさが大きい行動」をバランスよく選ぶことを目的...
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書
Web教科書