《章宗长-驾驭信息-智能决策Agent的设计及挑战-1125_watermark.pdf》由会员分享,可在线阅读,更多相关《章宗长-驾驭信息-智能决策Agent的设计及挑战-1125_watermark.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、章宗长计算机软件新技术全国重点实验室人工智能学院2023年11月25日驾驭信息:智能决策驾驭信息:智能决策Agent的设计及挑战的设计及挑战2023/11/302数据数据是指描述事物的符号记录,是构成信息和知识的原始材料数据大数据大数据有数据量大、维度多等特点,无法通过人工在合理时间内收集、管理、处理并整理成为人类所能解读的信息2023/11/303信息信息一般指数据所包含的意义,可以使数据所描述事件的不确定性减少信息Claude E.Shannon(1916-2001)信息熵:=1log信号源发出每种信号的概率香农用信息熵和三个非常简洁的定理,描述了信息科学的本质如何度量信息?信息的作用:消
2、除未知世界的不确定性信息的作用:消除未知世界的不确定性2023/11/304知识知识是指把有关信息关联在一起所形成的信息结构知识知识表示知识表示就是将人类知识形式化或者模型化框架表示法语义网表示法知识发现知识发现是将低层数据转换为高层知识的过程2023/11/305智慧智慧是指识别和应用相关知识的能力,本质是决策智慧DIKW金字塔决策的难度决策的难度在于它是需要行动的,需要承担后果2023/11/306人工智能是有关“智能智能Agent的研究与设计”的学问人工智能智能智能Agent是指一个可以观察周遭环境并做出行动以达到目标的系统智能智能衡量的是Agent在各式各样的环境中达到目标的能力202
3、3/11/307Agent和环境环境环境Agent传感器传感器?执行器执行器行动行动感知感知Agent通过传感器感知环境并通过执行器对所处环境产生影响2023/11/308智能决策Agent和环境的交互发生在离散时间步=1,2,环境环境 =(,)是动作空间是观察空间(+1|)是观察模型=1,1,:到时间步为止的交互历史Agent是一个把交互历史映射到动作分布的函数(+1|):在时间步+1选择动作+1的概率智能决策智能决策聚焦于设计能通过行动与环境智能交互以达到预设目标的智能Agent2023/11/309智能决策Agent的设计方法(一)显式编程显式地编码告诉Agent在各种可能经历的场景下该
4、如何行动直接、无学习、基于规则、在简单问题上有效当需要提供复杂策略时,会给设计者带来较大的编码负担监督学习行为克隆:使用有标记的训练样本,学习从观察到行动的映射泛化性较差,有复合误差等问题优化给定策略空间和性能度量,在空间中搜索使得性能度量最优的策略2023/11/3010智能决策Agent的设计方法(二)规划一种形式的优化方法假设环境模型已知,将其用于指导搜索概率规划考虑世界的不确定性马尔可夫决策过程(MDP):考虑行动效果的不确定性部分可观察马尔可夫决策过程(POMDP):同时考虑感知和行动效果的不确定性经典规划假设环境是确定性的SettingComplexity ClassMDP Pla
5、nningP-completePOMDP PlanningPSPACE-complete积木世界2023/11/3011智能决策Agent的设计方法(三)强化学习假设环境模型未知Agent通过与环境交互,从奖励信号中学习设计者提供性能度量,学习算法优化Agent的行为行动不仅有立即效果,而且有延迟效果奖励观察行动环境环境2023/11/3012真实世界应用给智能决策带来的挑战真实世界应用的特点特点环境模型未知环境模型未知,使得智能决策Agent需要在试错中学习环境的观察模型(|)输入的历史是非独立同分布非独立同分布(IID)的信息流的信息流统计挑战统计挑战缺少知识指导的试错难以获得高价值的信息
6、,导致样本利用低效计算挑战计算挑战即使有了辨别最优策略所需的信息,搜索最优策略仍然存在计算上的困难如何克服这些挑战?驾驭信息驾驭信息使用有限的资源,敏捷轻便地处理非IID的信息流2023/11/3013资源受限下的终身强化学习资源受限资源受限是指Agent所能支配的计算、存储等资源有限Agent :把Agent函数约束在一个真实机器可实现的函数集合中Agent的优化目标优化目标是通过与环境=(,)交互最大化如下期望回报:Agent对历史的偏好函数非IID的信息流资源受限Agent的寿命信息的价值(VOI):VOI依赖于Agent的历史和信息处理能力2023/11/3014计算理性 vs.资源受