1、深圳 20230721李维 NLP科学家 出门问问VPAI大模型落地的前景和痛点兼谈工程师、架构师所面临的机会和挑战ArchSummit 全球架构师峰会自我介绍一下NLP 老司机、劳碌命,前讯飞AI研究院副院长,出门问问VP。Netbase前首席科学家10年,指挥研发18种语言的社会媒体舆情系统,成为美国NLP产业应用的经典成功案例。Cymfony前研发副总,获第一届问答系统第一名,赢得17个SBIR小企业创新研究项目李 维“010203大模型风暴大模型之炼大模型与AIGCOutline巴别塔建成日:公元2022年11月30日人类语言通天塔的建成为什么说建成了人类语言的通天塔?比 native
2、 还 native输入理解能力输出生成能力会说能听LLM“劳碌命”极其简单的原理自学习、预训练、生成式 AI(自回归GPT系列)“大号”的 N-gram 模型给定上文,预测下一词:next token predictionThe best thing about AI is its ability toThe best thing about AI is its ability to understandThe best thing about AI is its ability to understand worldsThe best thing about AI is its abilit
3、y to understand worlds thatThe best thing about AI is its ability to understand worlds that areThe best thing about AI is its ability to understand worlds that are bothThe best thing about AI is its ability to understand worlds that are both exciting 大力出奇迹 千(万)亿级字词/千亿级参数Rawcorpora多维向量文字序列LLM自学习生成式 A
4、I(自回归GPT系列)LLM 任务开放Way moreOpen-ended借用陆奇:We Are HereCF:Web-1 age人工智能当代简史11年前的第一次AI深度神经革命,聚焦感知,靠的是带标大数据有监督训练。5年多前的二次 AI 深度革命,NLP大模型(LLM)为旗帜,AI从感知到认知,靠的是自监督预训练。半年前通天塔的三次AI革命,搞定了自然语言交互,以 ChatGPT 为里程碑。ChatGPT:几乎完美的人机自然语言接口Zeroshot/零样本:不依赖标注大数据,克服知识瓶颈机器迁就人,而不是人迁就机器Few ShotsZero shot海量样本标注 少样本标注 零样本标注Cha
5、tGPT 能力测试语言知识Zeroshot 开放类任务理论上没有测试集,无法定量数据质量(QA)客户调查用户粘性、增长性利用已有测试:NLP测试集,高考,各资格考试人类知识部分人类知识LLM机器迁就人的结果:人皆码师底线拉平,LLM 听得懂所有人的指示为“万众创业”创造了条件码农贵族、产品经理/CXO、数据分析员、用户群体:NLP“核爆炸”及其影响新突破导向新生态ChatGPT 建成语言通天塔 语言大模型搞定人类语言 机器迁就人,而不是人迁就机器 实体交互方式的革命:不仅仅是人机 语言模型蕴含了知识模型,虽然并不完备GPT 洗礼后的新生态建设 标志感知智能走向认知智能:语言+知识 LLM Co
6、Pilot 落地,AIGC 前景广阔 用户接口:交互克服人工智障 LLM Agent 研究值得关注大模型时代的挑战模型痛点、领域挑战模型痛点 幻觉问题 稳定性问题 知识欠缺问题 多模态问题领域落地的挑战 谁调用谁:插件与外挂 领域数据库、业务逻辑、私有数据 自主AI研究:Agent 与现有领域 Legacy 系统的关系 大模型时代的焦虑架构师/工程师焦虑:you are not alone!NLP 老司机的焦虑 一夜醒来,专业没了 有说:半年前的专业经验是负资产 AI 系统的涌现,资源的爆发 百花齐放,AI 日新月异普罗的焦虑 工作被取代?艺术被颠覆?知识更新跑不赢知识增长“幻觉”:是 LLM