マルコフ決定過程

状態価値関数
行動価値関数

関連

強化学習(Reinforcement Learning)

マルコフ決定過程, 理論, 強化学習