マルコフ決定過程
状態価値関数
行動価値関数
関連
強化学習(Reinforcement Learning)
マルコフ決定過程
,
理論
,
強化学習