李宏毅机器学习&深度学习课程|概述强化学习1:强化学习三个步骤

深度强化学习概述:介绍了深度强化学习(Deep Reinforcement Learning)的概念。与监督学习不同,强化学习中机器不知道最佳输出,需要通过与环境互动获取奖励来学习。强化学习的框架与机器学习相似,包括actor和environment的互动。本节课的目的是让学生了解强化学习的基本概念。

观察环境决定行动:介绍了在强化学习中,actor通过观察环境来决定采取何种行动,以获取最大的奖励。以Space Invaders为例,actor控制航天飞机,通过左移、右移和开火来击败外星人获取奖励。通过不断学习和行动,actor的目标是最大化总奖励。

围棋环境互动学习:讲述了在围棋这个环境中,机器学习框架如何与机器进行互动,以最大化reward。通过定义reward为赢得一局得一分、输了得负一分,actor学习如何采取行动以获得最大reward。同时介绍了actor是一个network,输入是游戏画面,输出是行为分数,通过采取sample行为来决定下一步动作。

学习最优策略过程:讲解了在强化学习中,机器如何通过互动环境来学习最优策略。首先介绍了actor与environment的互动过程,通过选择不同的行为来获取reward,并不断优化total reward。将负的total reward作为loss,进一步优化学习过程。

定义奖励函数与优化:讲解了在强化学习中如何定义奖励函数以及优化网络参数以最大化奖励值。强调了在强化学习中的环境和奖励往往是黑盒子,具有随机性,不同于传统网络训练。通过比较强化学习和生成对抗网络(GAN)的相似之处,阐述了在优化过程中的挑战和不同之处。

Total Reward与Loss关系:讲解了强化学习中的Total Reward和Loss的关系,以及训练过程中的随机性。在RL中,要让Total Reward越大越好,等价于让负的Total Reward越小越好,即RL的Loss。训练时的随机性和测试时的随机性不同,RL在测试时具有较大的随机性。同时介绍了Policy Gradient算法和如何控制Actor的输出。

训练Actor控制行为:讲解了如何训练一个 Actor,通过定义合适的 Label 和 Loss 来控制 Actor 的行为,类似于训练一个 Classifier。训练资料包括希望采取的行为和不希望采取的行为,通过定义分数来表示期望程度,最终通过 Loss 函数训练得到符合预期的 Actor。

本文资料来源于互联网,仅做网络分享,如有侵权,请联系删除;不代表Sora中文网立场,如若转载,请注明出处:https://www.allinsora.com/6730

(0)
上一篇 2024年4月3日 上午10:21
下一篇 2024年4月3日 上午10:59

相关推荐

  • 李宏毅机器学习&深度学习课程|机器学习基本概念简介

    机器学习简介:机器学习是让机器具备找到一个复杂函式的能力,以应用于各种任务,如语音辨识和影像辨识。机器学习包括Regression和Classification两种任务,前者是找一个函式输出数值,如预测PM2.5的数值;后者是从给定选项中选择一个输出,如判断一封邮件是否为垃圾邮件。机器学习的目标是通过机器的力量自动找到这些复杂函式,以实现人工智能的应用。 分…

    2024年3月28日
    00120
  • 李宏毅机器学习&深度学习课程|生成式对抗网络1:基本概念介绍

    生成网络基本概念介绍:讲生成网络,输入会加上一个随机变量z,通过设计网络架构,将x和z结合得到输出。Z每次都不同,从简单的分布中sample出来。生成网络的输出是一个复杂分布,可以输出一个distribution的network称为generator。训练generator可用于video prediction等任务。 生成模型解决问题:讲述了在训练机器学习…

    2024年3月29日
    00487
  • 李宏毅机器学习&深度学习课程|机器终身学习2:灾难性遗忘的克服之道

    三种Lifelong Learning解决方法:介绍了三种Lifelong Learning的解决方法,其中第一种是Selective Synaptic Plasticity,通过调整神经网络中部分神经元或连接的可塑性来实现学习。讲解了Catastrophic Forgetting问题的原因和解决方法,提出了参数重要性不同的概念。 保留旧任务重要参数:介绍了…

    2024年4月7日
    00390
  • 哈佛CS50 Python入门课程 | L1 知识系统知识2(推断,知识工程)

    视频介绍了使用推理算法和知识工程来解决问题的方法。通过模型检查算法和命题逻辑符号,可以推断出各种逻辑谜题和推理问题的答案。视频展示了如何使用Python编码知识库,并通过逻辑推理得出结论。通过知识工程,计算机可以帮助人类解决各种问题,从而提高问题解决的效率和准确性。 推理算法基本概念:这一章节讲解了推理算法的基本概念,通过模型检查算法来确定知识库是否包含某查…

    2024年4月7日
    00123
  • 哈佛CS50 Python入门课程 | L3 优化算法3 (回溯搜索等)

    该视频介绍了人工智能中的优化问题,包括局部搜索、线性规划和约束满足问题的解决方法。通过算法如艺术一致性和回溯搜索,可以有效解决各种问题。视频还提到了启发式方法,如最小剩余值和度启发式,以提高问题求解效率。总的来说,学习这些算法和技术可以帮助解决各种问题,包括优化生产成本、课程安排等。 弧一致性:这一章节主要讨论了弧一致性,即在考虑变量间二元约束时如何保持一致…

    2024年4月8日
    0077

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

关注微信
Sora改变AI认知方式,开启走向「世界模拟器」的史诗级的漫漫征途。