4-1 决策智能:任务与技术概览.pdf

编号:102378 PDF 34页 3.79MB 下载积分:VIP专享
下载报告请您先登录!

4-1 决策智能:任务与技术概览.pdf

1、张伟楠上海交通大学http:/决策智能:任务与技术概览欢迎关注动手学强化学习https:/ 决策智能前沿论坛2分享内容 决策智能技术概览 强化学习的基础概念和思维方式 强化学习的落地现状与挑战两种人工智能任务类型3p预测型任务 根据数据预测所需输出(有监督学习)生成数据实例(无监督学习)p决策型任务 在静态环境中优化目标(优化问题)在动态环境中采取行动(强化学习)决策智能的任务和技术分类4环境特性白盒环境变量和目标之间的关系可以用具体公式表示黑盒环境变量和目标之间的关系无法用具体公式表示静态环境环境没有转移的状态单步决策运筹优化(混合整数)线性规划非线形优化黑盒优化神经网络替代模型优化贝叶斯优

2、化动态环境环境有可转移的状态多步决策动态规划MDP直接求解树、图搜索强化学习策略优化Bandits、序贯黑盒序贯决策p根据决策环境的动态性和透明性,决策任务大致分为以下四个部分,对应具体的技术方案5运筹优化(Operational Research)生产排期例子变量:每个时段生产的物品和量 约束:生产物品、生产环境的依赖 目标:成本p运筹优化任务往往可以由数学公式直接写出,是典型的白盒环境,以常见的混合整数规划问题为例目标约束变量6黑盒优化(Black-box Optimization)工业制造例子:一套生产线500个参数可以调整,需要找到合适的参数,使得产出零件的坏件率最低;但开启生产线后一

3、段时间才能计算坏件率。p黑盒优化任务往往无法由数学公式直接写出输入和输出的对应关系,主要面临的挑战包括无显式解、收敛性等问题优化的目标函数未知、甚至评估也不容易在一定范围内寻找最优变量7序贯决策(Sequential Decision Making)绝大多数序贯决策问题,可以用强化学习来解p序贯决策中,智能体序贯地做出一个个决策,并接续看到新的观测,直到最终任务结束智能体动态环境机器狗例子:操作轮足和地形持续交互,完成越过障碍物的任务8分享内容 决策智能 强化学习的基础概念和思维方式 强化学习的落地现状与挑战9强化学习定义p通过从交互中学习来实现目标的计算方法p三个方面:感知:在某种程度上感知

4、环境的状态 行动:可以采取行动来影响状态或者达到目标 目标:随着时间推移最大化累积奖励观察(observation)行动(action)奖励(reward)智能体(agent)10强化学习交互过程p在每一步t,智能体:获得观察Ot 执行行动At 获得奖励Rtp环境:获得行动At 给出奖励Rt 给出观察Ot+1pt在环境这一步增加奖励观察行动智能体环境!独特性:策略不同,交互出的数据也不同!11在与动态环境的交互中学习有监督学习无监督学习强化学习预测模型固定的数据智能体动态环境12一个智能体的例子:MIT机器狗Margolis et al.Rapid Locomotion via Reinfor

5、cement Learning.Arxiv 2205.02824,2021.https:/ 即,一直到时间t为止的所有可观测变量 根据这个历史可以决定接下来会发生什么 智能体选择行动 环境选择观察和奖励p状态(state)是一种用于确定接下来会发生的事情(行动、观察、奖励)的信息 状态是关于历史的函数!=,#,#,#,!$,!$,!$,!=(!)14强化学习系统要素p策略(Policy)是学习智能体在特定状态的动作决策 确定性策略(Deterministic Policy)=()随机策略(Stochastic Policy)p奖励(Reward)一个定义强化学习目标的标量,能立即感知到什么是“

6、好”的(,)=!=!=)p环境(Environment)预测下一个状态!=#$%=|#=,#=!=#|#=,#=预测下一个(立即)奖励奖励观察行动智能体环境!价值-策略的动态规划求解(白盒动态环境)15p价值是一个标量,用于定义对于长期来说什么是“好”的p给策略定义价值函数:从某个状态和动作开始,获得的累积奖励期望&(%,%)=()+5!(!()5!)*(*,)&(,)=(+)+(%)+,(,)+|+=,+=,Bellman等式立即奖励时间折扣状态转移下一个状态的价值p基于函数,改进策略;基于上式,更新函数(策略迭代的动态规划)SARSA强化学习方法(黑盒动态环境)16p对于当前策略执行的每个

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(4-1 决策智能:任务与技术概览.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠