Actor-CriticはTD学習(Temporal Difference Learning)を用いた最も初期の強化学習(Reinforcement Learning)で使われていたアルゴリズム。Actor-Criticには、下記2点のメリットがある。