Actor-Critic

Actor-CriticはTD学習(Temporal Difference Learning)を用いた最も初期の強化学習(Reinforcement Learning)で使われていたアルゴリズム。Actor-Criticには、下記2点のメリットがある。

  1. 行動選択に最小限の計算量しか必要としない。連続値行動のような“可能な行動の個数が無限大である”ときに、行動価値算出のためにQ学習などでは1つの行動を選び出すために無限集合のなかを探索することになる。しかし、Actor-Criticでは行動選択に最小限の計算量しか必要としない。
  2. 確率的な行動選択を学習することができるので、いろいろな行動に対してそれを選択するような最適確率を学習することができる。

関連