《戴冠平-AI趋动下新交互生态应用中的实践与挑战.pdf》由会员分享,可在线阅读,更多相关《戴冠平-AI趋动下新交互生态应用中的实践与挑战.pdf(55页珍藏版)》请在三个皮匠报告上搜索。
1、AI趋动下新交互生态应用中的实践与挑战戴冠平|北京缔智元戴冠平北京缔智元首席科学顾问清华大学,汽车工程/计算机科学(双学位)、本校工学硕士毕业;具有20+年 AI 算法研究积累,不仅自建深度学习大模型框架,更将技术能力应用于实践 参与国家汽车安全实验室影像分析及神舟飞船回收舱遥测跟踪等项目,以 AI 技术赋能关键场景的数据分析与精准跟踪;在中间件领域,曾任职中科院软件研究所,BEA/ORACLE(中国),深厚的行业积淀推动其自研出中间件产品 LinkMind;同时具备丰富的银行与电信系统架构经验,出版有叱咤风云:GoldenGate 企业级运维实战等多部企业级运维领域著作,持续深耕技术研究与应
2、用。目 录CONTENTSI.AI大模型开启的新一代人机交互机会II.AI大模型应用融合技术发展III.AI大模型应用落地实践与挑战AI大模型开启的新一代人机交互机会PART 011.1 人机交互演进历史回顾早期手工阶段穿孔卡片/纸带输入,靠手工操作开关、插拔线缆输入指令,输出以指示灯或穿孔卡片呈现;命令行界面(CLI);1940s-1960s无感交互发展语音交互(Siri/Alexa)计算机视觉(Face ID、手势识别)2010-至今移动与触控兴起1993 IBM Simon手机:触控屏;1997 Dragon Dictate:语音识别;2007 iPhone:电容触屏+多点触控;手势操作
3、(滑动、缩放);1990s-2000s图形用户界面(GUI)革命1973 施乐Alto:首个GUI(图形用户界面);1984 苹果Macintosh:普及鼠标+窗口操作;Window系统推动GUI普及,以图标,窗口等元素开启大众化计算时代;1970s-1980s人机交互(Human-Computer Interaction,简写HCI):指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。1.2 数字人AI原生态交互模式1.2 数字人AI原生态交互模式有温度的交互有智慧的大脑 行业知识训练学习思考与任务规划工具与驱动物理世界(行动)短期/长期记忆个
4、性与自我认知创造新的技能大模型通用智能 思考力交互力AI Agent 多种形态(一体机、大屏、桌面、手机)3D超写实拟人形象全自然语言交互新范式个性化和灵动的语言表达符合真人习惯的交互方式基于机器视觉+机器听觉+场景学习的多模态交互1.3 当前行业现状、瓶颈与破局高分低能:能做奥数题,但不懂基本的行业知识。“幻觉”问题:在严肃场合下“一本正经地胡说八道”。鸡同鸭讲:细分业务场景下的意图泛化理解能力严重缺乏。浅尝辄止:很难与业务流程结合而为客户创造实际价值。场景限制:现有大部分应用局限在个人办公的生产力提升(基于桌面的文本处理和对话)。“玩具”“助手”个人生产力工具(文本处理、图片/视频生成、搜
5、索)“伙伴”企业级应用/智能体个人专业顾问“上帝”?1.3 当前行业现状、瓶颈与破局精确度100AI迭代曲线0/0t 时间左侧业务曾经MIT人工智能实验室主任丹妮拉鲁斯说:“首先是人工智能解决问题的能力没有那么好,比如说清理桌子我们觉得很简单,但是对于机器人来说它们会做得特别差。”“第二,人工智能很难提升表现率,将90%提升到99%是特别难的.”鉴于AI跟场景结合时,有时间投入边际效应递减的经验规律,建议优先选择当前AI水平易于超过行业门槛的业务切入,否则从原型到上线量产的时间成本太高。1.3 当前行业现状、瓶颈与破局信息升维:交互的内容,从文本,到语音,到视频,维度的升级带来了信息量和体验感
6、的指数级增长。场景复杂:交互对象不再只是电脑或手机前一个人的一问一答,而是复杂的多人交互、多轮交互。消除幻觉:比起会做奥数题,更重要的是懂行业、懂业务,不会胡说八道。实时性:在需要纯自然语言交互方式的场景下,客户对端到端的延时要求非常苛刻。交互体验:客户想要的,是解放双手,回归最符合人性和自然的视听混合体验。产生行动:与业务相关,就要求完成对环境和业务系统的控制,如何从“书呆子”变成具有行动能力的“八爪鱼”?1.3 当前行业现状、瓶颈与破局一次编写便可适用多个模型.减少重复工作,提高开发效率.降低构建难度.引入Medusa减少等待时间.更高效地提升模型性能.精细化管理和确保模型输出高准确性.不