TD学習(Temporal Difference Learning)

TD学習(Temporal Difference Learning)とは、「自分自身の評価を行い,それを更新するための手法を提案する」もので、強化学習(Reinforcement Learning)で一般的に用いられている手法の源。TD学習ではTD誤差と呼ばれるものを使って、この誤差を0に近づけていくという方法で学習を進めていく。

Bellman方程式近似であり、動的計画法のように以前の結果を利用でき、モンテカルロ法のように環境のモデルを必要としない。

関連