价值/政策迭代

  • 斯坦福CS229 | MDP 和价值/政策迭代

    斯坦福CS229介绍了MDP(Markov Decision Process)和价值/政策迭代算法。讲解了MDP的基本概念,以及如何通过算法来找到最优策略。讨论了探索与利用的问题,以及如何通过epsilon-greedy探索策略来平衡探索与利用。最后提到了内在奖励学习和Boltzmann探索策略。视频强调了通过实验和探索来完善MDP算法的重要性。 MDP和值…

    2024年4月8日
    00434
关注微信
Sora改变AI认知方式,开启走向「世界模拟器」的史诗级的漫漫征途。