用时:52ms

人工智能行业研究报告-PDF版

您的当前位置:首页 > 人工智能 > 大模型
  • 2024大模型典型示范应用案例集(217页).pdf

    仅供交流学习使用大模型典型示范应用案例集Case Studies Of Demonstration ApplicationFor Foundation Models2024仅供交流学习使用案例集仅供交流学习使用案例集Case Studies Of Demonstration Application仅供交流学习使用Case Studies Of Demonstration ApplicationFor Foundation Models仅供交流学习使用For Foundation Models阿里云计算有限公司北京百川智能科技有限公司北京百度网讯科技有限公司北京滴普科技有限公司北京九章云极科技有限公司北京幂律智能科技有限责任公司北京摩诃脉动科技有限公司北京容联易通信息技术有限公司北京神州绿盟科技有限公司北京世纪好未来教育科技有限公司北京网聘信息技术有限公司北京中科院软件中心有限公司长江证券股份有限公司长沙数字天蚂信息技术有限公司创新奇智科技集团股份有限公司达观数据有限公司钉钉(中国)信息技术有限公司法天使(北京)科技有限公司复旦大学附属中山医院复旦大学一带一路及全球治理研究院工业互联网创新中心(上海)有限公司果麦文化传媒股份有限公司国泰君安证券股份有限公司虎博网络技术(上海)有限公司华为技术有限公司华院计算技术(上海)股份有限公司吉利汽车集团暨南大学广东智慧教育研究院(*按单位首字拼音排序)对案例集的参编单位表示感谢:教育经济宏观政策研究院开普云信息科技股份有限公司昆仑万维科技股份有限公司岚图汽车科技有限公司联想(上海)信息技术有限公司蚂蚁财富(上海)金融信息服务有限公司蚂蚁科技集团股份有限公司蚂蚁云科技集团股份有限公司蚂蚁智安安全技术(上海)有限公司蚂蚁智信(杭州)信息技术有限公司OPPO 广东移动通信有限公司软通动力信息技术(集团)股份有限公司厦门渊亭信息科技有限公司山东浪潮智水数字科技有限公司上海艾为电子技术股份有限公司上海百秋尚美科技服务集团股份有限公司上海财跃星辰智能科技有限公司上海传之神科技有限公司上海道客网络科技有限公司上海得帆信息技术有限公司上海东方财富金融数据服务有限公司上海钢联电子商务股份有限公司上海观安信息技术股份有限公司上海鸿翼软件技术股份有限公司上海阶跃星辰智能科技有限公司上海勘测设计研究院有限公司上海氪信信息技术有限公司上海联影智能医疗科技有限公司上海羚数智能科技有限公司上海秘塔网络科技有限公司上海淼链科技有限公司上海人工智能实验室上海任意门科技有限公司上海森亿医疗科技有限公司上海商汤智能科技有限公司上海识装信息科技有限公司上海松鼠云上人工智能技术有限公司上海燧原科技股份有限公司上海西井科技股份有限公司上海稀宇科技有限公司(MiniMax)上海笑聘网络科技有限公司上海星图比特信息技术服务有限公司上海岩芯数智人工智能科技有限公司 上海优咔网络科技有限公司上海智能交通有限公司上海智象未来计算机科技有限公司上海卓繁信息技术股份有限公司深圳云天励飞技术股份有限公司时代新媒体出版社有限责任公司式说人工智能科技(上海)有限公司苏州阿尔脉生物科技有限公司苏州复能科技有限公司苏州核数聚信息科技有限公司苏州麦迪斯顿医疗科技股份有限公司腾讯科技(深圳)有限公司天津蜜度文修智能科技有限公司同道猎聘集团同方有云(北京)科技有限公司网易(上海)网络游戏有限公司微亿智造科技有限公司芯安微众(上海)微电子技术有限公司星环信息科技(上海)股份有限公司行吟信息科技(上海)有限公司崖州湾国家实验室壹沓科技(上海)有限公司仪电双杨智能科技(上海)有限公司印象(上海)数字科技有限公司御方治圆(上海)科技有限公司云从科技集团股份有限公司云知声智能科技股份有限公司浙江大学浙江大学上海高等研究院珍岛信息技术(上海)股份有限公司中工互联(北京)科技集团有限公司中国电信股份有限公司上海分公司中国科学院上海药物研究所中国联合网络通信有限公司上海市分公司 中国移动通信集团江西有限公司中国移动信息技术有限公司中海油信息科技有限公司北京分公司中企网络通信技术有限公司中移(上海)信息通信科技有限公司中移(苏州)软件技术有限公司中远海运科技股份有限公司钉钉(中国)信息技术有限公司仅供交流学习使用钉钉(中国)信息技术有限公司法天使(北京)科技有限公司仅供交流学习使用法天使(北京)科技有限公司复旦大学附属中山医院仅供交流学习使用复旦大学附属中山医院复旦大学一带一路及全球治理研究院仅供交流学习使用复旦大学一带一路及全球治理研究院工业互联网创新中心(上海)有限公司仅供交流学习使用工业互联网创新中心(上海)有限公司果麦文化传媒股份有限公司仅供交流学习使用果麦文化传媒股份有限公司国泰君安证券股份有限公司仅供交流学习使用国泰君安证券股份有限公司杭州市医疗保障局仅供交流学习使用杭州市医疗保障局恒生电子股份有限公司仅供交流学习使用恒生电子股份有限公司虎博网络技术(上海)有限公司仅供交流学习使用虎博网络技术(上海)有限公司华为技术有限公司仅供交流学习使用华为技术有限公司华院计算技术(上海)股份有限公司仅供交流学习使用华院计算技术(上海)股份有限公司吉利汽车集团仅供交流学习使用吉利汽车集团暨南大学广东智慧教育研究院仅供交流学习使用暨南大学广东智慧教育研究院仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用联想(上海)信息技术有限公司仅供交流学习使用联想(上海)信息技术有限公司蚂蚁财富(上海)金融信息服务有限公司仅供交流学习使用蚂蚁财富(上海)金融信息服务有限公司蚂蚁科技集团股份有限公司仅供交流学习使用蚂蚁科技集团股份有限公司蚂蚁云科技集团股份有限公司仅供交流学习使用蚂蚁云科技集团股份有限公司蚂蚁智安安全技术(上海)有限公司仅供交流学习使用蚂蚁智安安全技术(上海)有限公司蚂蚁智信(杭州)信息技术有限公司仅供交流学习使用蚂蚁智信(杭州)信息技术有限公司蜜度科技股份有限公司仅供交流学习使用蜜度科技股份有限公司OPPO 广东移动通信有限公司仅供交流学习使用OPPO 广东移动通信有限公司软通动力信息技术(集团)股份有限公司仅供交流学习使用软通动力信息技术(集团)股份有限公司厦门渊亭信息科技有限公司仅供交流学习使用厦门渊亭信息科技有限公司山东浪潮智水数字科技有限公司仅供交流学习使用山东浪潮智水数字科技有限公司上海艾为电子技术股份有限公司仅供交流学习使用上海艾为电子技术股份有限公司仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用上海岩芯数智人工智能科技有限公司 仅供交流学习使用上海岩芯数智人工智能科技有限公司 上海优咔网络科技有限公司仅供交流学习使用上海优咔网络科技有限公司上海智能交通有限公司仅供交流学习使用上海智能交通有限公司上海智象未来计算机科技有限公司仅供交流学习使用上海智象未来计算机科技有限公司上海卓繁信息技术股份有限公司仅供交流学习使用上海卓繁信息技术股份有限公司深圳云天励飞技术股份有限公司仅供交流学习使用深圳云天励飞技术股份有限公司时代新媒体出版社有限责任公司仅供交流学习使用时代新媒体出版社有限责任公司式说人工智能科技(上海)有限公司仅供交流学习使用式说人工智能科技(上海)有限公司苏州仅供交流学习使用苏州阿尔脉生物科技有限公司仅供交流学习使用阿尔脉生物科技有限公司苏州复能科技有限公司仅供交流学习使用苏州复能科技有限公司苏州核数聚信息科技有限公司仅供交流学习使用苏州核数聚信息科技有限公司苏州麦迪斯顿医疗科技股份有限公司仅供交流学习使用苏州麦迪斯顿医疗科技股份有限公司腾讯科技(深圳)有限公司仅供交流学习使用腾讯科技(深圳)有限公司天津蜜度文修智能科技有限公司仅供交流学习使用天津蜜度文修智能科技有限公司芯安微众(上海)微电子技术有限公司仅供交流学习使用芯安微众(上海)微电子技术有限公司星环信息科技(上海)股份有限公司仅供交流学习使用星环信息科技(上海)股份有限公司行吟信息科技(上海)有限公司仅供交流学习使用行吟信息科技(上海)有限公司崖州湾国家实验室仅供交流学习使用崖州湾国家实验室壹沓科技(上海)有限公司仅供交流学习使用壹沓科技(上海)有限公司仪电双杨智能科技(上海)有限公司仅供交流学习使用仪电双杨智能科技(上海)有限公司印象(上海)数字科技有限公司仅供交流学习使用印象(上海)数字科技有限公司御方治圆(上海)科技有限公司仅供交流学习使用御方治圆(上海)科技有限公司云从科技集团股份有限公司仅供交流学习使用云从科技集团股份有限公司云知声智能科技股份有限公司仅供交流学习使用云知声智能科技股份有限公司浙江大学仅供交流学习使用浙江大学浙江大学上海高等研究院仅供交流学习使用浙江大学上海高等研究院珍岛信息技术(上海)股份有限公司仅供交流学习使用珍岛信息技术(上海)股份有限公司中工互联(北京)科技集团有限公司仅供交流学习使用中工互联(北京)科技集团有限公司引 言2024 年是大模型深入赋能千行百业,融入实体经济,助力科技创新的一年。截至今年 5 月,我国国产大模型的数量已经超过 300 个,预示着大模型在各行业场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动高质量发展发挥了重要作用。今年,国务院政府工作报告首次提出“人工智能 ”行动以来,全国各地进一步加速大模型技术与产业的落地融合。2024大模型典型示范应用案例集(以下简称 案例集)自4月启动征集以来,得到社会广泛关注。收到申报案例数百个,经专家组全面评估,最终遴选出 99个优秀案例,其中 45 个“行业赋能”、46 个“智能应用”、8 个“生态服务”,覆盖新型工业化、能源、医疗、政务等重要应用场景,涵盖天文、农业、化学等科学领域,以及智能数据标注、大模型评测、云边异构融合服务等创新平台。除此之外,本次案例集还呈现以下特点:上海成为大模型应用落地热土。案例集收到申报案例中,上海占比超过50%。大中型企业是大模型主要试验场。本次案例主要集中在中型、大型企业 78 家,占 80%,成为大模型应用创新的主要玩家。大模型应用场景实现全面开花。本次案例涉及10余个不同行业,其中医疗、金融、文娱传媒、政务、能源与工业是主要应用场景。引 言AI 智能体成为大模型应用新热点。本次案例中,AI Agent(智能体)相关案例占比超 1/5(23%),成为大模型应用热点关键词。知识库成为大模型落地主要辅助手段。基于 RAG 技术搭建行业与场景知识库,成为企业提升大模型落地实效的主要手段。本案例集是自 2023 年 7 月发布2023 通用人工智能案例集、12 月发布中国大模型落地应用案例集(2023)以来,进一步全面展示中国大模型应用的创新实力和突破成果。我们期待案例集能为行业内外的决策者、研究者和实践者提供有益参考,为人工智能大模型深入赋能新型工业化、驱动新质生产力、推动产业经济高质量发展作出贡献。在此,我们对所有支持单位和提供宝贵意见的个人表示衷心的感谢,并期待与各方携手,共同迎接大模型带来的无限可能。2024 大模型典型示范应用案例集编委会2024 年 7 月仅供交流学习使用2024 年是大模型深入赋能千行百业,融入实体经济,助力科技创新的一年。截仅供交流学习使用2024 年是大模型深入赋能千行百业,融入实体经济,助力科技创新的一年。截至今年 5 月,我国国产大模型的数量已经超过 300 个,预示着大模型在各行业仅供交流学习使用至今年 5 月,我国国产大模型的数量已经超过 300 个,预示着大模型在各行业场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动仅供交流学习使用场景的创新应用和深度拓展,对培育新质生产力、高水平赋能新型工业化、推动高质量发展发挥了重要作用。今年,国务院政府工作报告首次提出“人工智能 ”仅供交流学习使用高质量发展发挥了重要作用。今年,国务院政府工作报告首次提出“人工智能 ”行动以来,全国各地进一步加速大模型技术与产业的落地融合。仅供交流学习使用行动以来,全国各地进一步加速大模型技术与产业的落地融合。2024大模型典型示范应用案例集(以下简称 案例集)自4月启动征集以来,仅供交流学习使用2024大模型典型示范应用案例集(以下简称 案例集)自4月启动征集以来,得到社会广泛关注。收到申报案例数百个,经专家组全面评估,最终遴选出 99仅供交流学习使用得到社会广泛关注。收到申报案例数百个,经专家组全面评估,最终遴选出 99个优秀案例,其中 45 个“行业赋能”、46 个“智能应用”、8 个“生态服务”,仅供交流学习使用个优秀案例,其中 45 个“行业赋能”、46 个“智能应用”、8 个“生态服务”,覆盖新型工业化、能源、医疗、政务等重要应用场景,涵盖天文、农业、化学等仅供交流学习使用覆盖新型工业化、能源、医疗、政务等重要应用场景,涵盖天文、农业、化学等科学领域,以及智能数据标注、大模型评测、云边异构融合服务等创新平台。除仅供交流学习使用科学领域,以及智能数据标注、大模型评测、云边异构融合服务等创新平台。除此之外,本次案例集还呈现以下特点:仅供交流学习使用此之外,本次案例集还呈现以下特点:上海成为大模型应用落地热土。仅供交流学习使用上海成为大模型应用落地热土。案例集收到申报案例中,上海占比超过仅供交流学习使用案例集收到申报案例中,上海占比超过50%。仅供交流学习使用50%。大中型企业是大模型主要试验场。仅供交流学习使用大中型企业是大模型主要试验场。占 80%,成为大模型应用创新的主要玩家。仅供交流学习使用占 80%,成为大模型应用创新的主要玩家。大模型应用场景实现全面开花。仅供交流学习使用大模型应用场景实现全面开花。文娱传媒、政务、能源与工业是主要应用场景。仅供交流学习使用文娱传媒、政务、能源与工业是主要应用场景。仅供交流学习使用本次案例中,AI Agent(智能体)相关案例占仅供交流学习使用本次案例中,AI Agent(智能体)相关案例占基于 RAG 技术搭建行业与场景知识库,仅供交流学习使用基于 RAG 技术搭建行业与场景知识库,本案例集是自 2023 年 7 月发布2023 通用人工智能案例集、12 月发布中仅供交流学习使用本案例集是自 2023 年 7 月发布2023 通用人工智能案例集、12 月发布中国大模型落地应用案例集(2023)以来,进一步全面展示中国大模型应用的创仅供交流学习使用国大模型落地应用案例集(2023)以来,进一步全面展示中国大模型应用的创新实力和突破成果。我们期待案例集能为行业内外的决策者、研究者和实践仅供交流学习使用新实力和突破成果。我们期待案例集能为行业内外的决策者、研究者和实践者提供有益参考,为人工智能大模型深入赋能新型工业化、驱动新质生产力、推仅供交流学习使用者提供有益参考,为人工智能大模型深入赋能新型工业化、驱动新质生产力、推动产业经济高质量发展作出贡献。仅供交流学习使用动产业经济高质量发展作出贡献。在此,我们对所有支持单位和提供宝贵意见的个人表示衷心的感谢,并期待与各仅供交流学习使用在此,我们对所有支持单位和提供宝贵意见的个人表示衷心的感谢,并期待与各方携手,共同迎接大模型带来的无限可能。仅供交流学习使用方携手,共同迎接大模型带来的无限可能。(案例排序不分先后)目 录Contents智能应用2生态服务3安全智选:基于用户理解大模型的服务创新.病历生成式语言模型.ChatMemo艾为电子的芯片“百晓生”.CodeFuse 代码大模型及智能研发应用实践.大模型驱动云端一体知识管理平台.大模型在证券文件 FAQ 抽取中的应用.得帆云低代码 AIAgent 智能体.地化所月球与行星科学多模态大模型.第四范式先知行业大模型平台.多面 AI 面试评价系统.法小天专家级法律人工智能助手.智象未来(HiDream.ai).基于大模型的麻醉专家咨询系统.基于大模型的数据库智能助手.基于大语言模型的智能数据查询系统.基于九章大模型的个性化学习产品 AI Tutor.基于蚂蚁百灵大模型的支付宝智能助理.基于大模型的合同解析方法.开悟多模态模型焕新古典绘画艺术.秘塔 AI 搜索.面向集装箱物流的大模型系统 TerminalGPT.浦科化学大模型体系.SciMind 生物医药专利自动分析系统.生成式 AI 情感座舱.松鼠 Ai 智适应教育大模型应用案例.燧原曜图-国内首款基于国产 AI 芯片的 AI 绘画 MaaS 平台.腾讯云大模型知识引擎.天工 SkyMusic.网易有灵平台面向智能体的人机协作任务平台.微亿智造视觉检测多模态大模型在质检方面的应用.文修大模型赋能出版行业新未来.小布助手.“小钢”数字智能助手.芯安智能语义助手.新一代全媒体数智化客户体验中心.医保小智蚂蚁百灵大模型医保 AI 智能助理.以正教育大模型在教育领域的应用.异世界回响打造个性化人设陪伴聊天机器人.用大模型驱动内外全链路服务升级.云边异构大模型融合与优化平台.政企营销智能 Copilot 应用与创新实践.支小宝 2.0-智能金融助理.中国海油电商大模型智能化场景解决方案.“珠玑”大模型在搜推场景的赋能应用.206210214218222226230234238242248252256260268274278282286290296300304308314316322326328332336338342348358364368376380382386390394398行业赋能1(案例排序不分先后)仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用目 录ContentsAI 智能采编系统.Alaya NeW 智算操作系统.AIPC 与云端联动的星环无涯问知大模型.百秋 AIGC 零售全链路数智洞察平台.保险行业 AI 大模型助手产品.车辆智能运维助手.创新奇智工业大模型赋能制造业.达观数据智能知识库系统.大模型赋能长三角教育现代化典型案例的应用研究.得物 AI 查验鉴别系统.多模态大模型“山海”.法律大模型在智能合同场景中的应用实践.丰登种业大语言模型.光子慧营资管运营智能助手.基于大模型的云平台智能运维系统.仅供交流学习使用.仅供交流学习使用基于大模型的正样本异常检测方案.仅供交流学习使用.仅供交流学习使用基于道客云原生知识库平台的金融合规助手.仅供交流学习使用.仅供交流学习使用君弘灵犀赋能证券智能化服务.仅供交流学习使用.仅供交流学习使用浪潮安澜大模型.仅供交流学习使用.仅供交流学习使用浪潮智稷农业互联网平台.仅供交流学习使用.仅供交流学习使用联影影智大模型研发应用一体化新范式.仅供交流学习使用.仅供交流学习使用蜜巢大模型助力市民热线提质增效.仅供交流学习使用.仅供交流学习使用面向零碳能源的智慧工商业储能系统.仅供交流学习使用.仅供交流学习使用MiniMax 智慧招聘解决方案.仅供交流学习使用.仅供交流学习使用某能源央企总部公文 AI 项目.仅供交流学习使用.仅供交流学习使用能源数字化建设项目.仅供交流学习使用.仅供交流学习使用OpenCSG 医疗大模型仅供交流学习使用OpenCSG 医疗大模型仅供交流学习使用.仅供交流学习使用.仅供交流学习使用清洁能源电力决策大模型的应用实践仅供交流学习使用清洁能源电力决策大模型的应用实践仅供交流学习使用.仅供交流学习使用.仅供交流学习使用通达交通大模型仅供交流学习使用通达交通大模型仅供交流学习使用.仅供交流学习使用.仅供交流学习使用梧桐直播电商数智化工作台仅供交流学习使用梧桐直播电商数智化工作台仅供交流学习使用.仅供交流学习使用.仅供交流学习使用新华医院:商汤大模型助力“智能陪诊助手”仅供交流学习使用新华医院:商汤大模型助力“智能陪诊助手”仅供交流学习使用.薪班班-基于 AIGC 的灵活用工直招平台仅供交流学习使用薪班班-基于 AIGC 的灵活用工直招平台仅供交流学习使用.仅供交流学习使用星辰政务大模型在政务热线的应用仅供交流学习使用.仅供交流学习使用.仅供交流学习使用修船行业大模型在某船舶重工企业厂区智慧物流仓储系统的研究与应用仅供交流学习使用修船行业大模型在某船舶重工企业厂区智慧物流仓储系统的研究与应用仅供交流学习使用.循道政务大模型赋能“高效办成一件事”示范应用仅供交流学习使用循道政务大模型赋能“高效办成一件事”示范应用仅供交流学习使用.一带一路及全球贸易智讯 AI 模型(GCI)仅供交流学习使用一带一路及全球贸易智讯 AI 模型(GCI)仅供交流学习使用.医疗基础大模型之临床工作流程仅供交流学习使用医疗基础大模型之临床工作流程仅供交流学习使用.仪电双杨牛顿 Newtn 智能体仅供交流学习使用仪电双杨牛顿 Newtn 智能体仅供交流学习使用.运小沓 Cuber-基于供应链大模型的数字员工超自动化解决方案仅供交流学习使用运小沓 Cuber-基于供应链大模型的数字员工超自动化解决方案仅供交流学习使用.云从科技今世缘设备数智化平台仅供交流学习使用云从科技今世缘设备数智化平台仅供交流学习使用.“云天天书”数字政务大模型仅供交流学习使用“云天天书”数字政务大模型仅供交流学习使用.振华重工重型装备 ETO 制造交付 Multi-Agent.智海录问法律大模型在司法行业的应用.中科文书大模型.中远海运科技 Hi-Dolphin 大模型服务平台.010014018022030034038042046054058062066仅供交流学习使用066仅供交流学习使用068仅供交流学习使用068仅供交流学习使用仅供交流学习使用070仅供交流学习使用仅供交流学习使用076仅供交流学习使用仅供交流学习使用082仅供交流学习使用仅供交流学习使用086仅供交流学习使用仅供交流学习使用090仅供交流学习使用仅供交流学习使用094仅供交流学习使用仅供交流学习使用098仅供交流学习使用102仅供交流学习使用102仅供交流学习使用104仅供交流学习使用104仅供交流学习使用108112118120124128132138142146150152158162164168172174178182186190010203040506070809101112131415161718192021222324252627282930313233仅供交流学习使用33仅供交流学习使用仅供交流学习使用34仅供交流学习使用仅供交流学习使用35仅供交流学习使用仅供交流学习使用36仅供交流学习使用仅供交流学习使用37仅供交流学习使用仅供交流学习使用38仅供交流学习使用仅供交流学习使用39仅供交流学习使用仅供交流学习使用40仅供交流学习使用仅供交流学习使用41仅供交流学习使用42仅供交流学习使用42仅供交流学习使用434445484950515253545556575859606162636465666768697071727374757677仅供交流学习使用78仅供交流学习使用仅供交流学习使用79仅供交流学习使用仅供交流学习使用80仅供交流学习使用仅供交流学习使用81仅供交流学习使用仅供交流学习使用82仅供交流学习使用仅供交流学习使用83仅供交流学习使用仅供交流学习使用84仅供交流学习使用仅供交流学习使用85仅供交流学习使用86仅供交流学习使用86仅供交流学习使用878889909192939495969798994647AI 标注智能体 AI Tagger 及其应用.东方财富 Choice 下一代智能金融终端.Chapter智能应用2196200百度智能云千帆大模型平台.Baichuan2-13B 开源大模型.大模型赋能安全运营.DB-GPT 数据智能体应用实践.面向 AI 数字内容安全的 AI 合成文本及图像鉴别.司南 OpenCompass 大模型评测体系.图像数据标注平台的研发.医疗大模型安全评估标准制定.Chapter生态服务3404408412420426430434438安全智选:基于用户理解大模型的服务创新.病历生成式语言模型.ChatMemo艾为电子的芯片“百晓生”.CodeFuse 代码大模型及智能研发应用实践.大模型驱动云端一体知识管理平台.大模型在证券文件 FAQ 抽取中的应用.得帆云低代码 AIAgent 智能体.地化所月球与行星科学多模态大模型.第四范式先知行业大模型平台.多面 AI 面试评价系统.法小天专家级法律人工智能助手.智象未来(HiDream.ai).仅供交流学习使用.仅供交流学习使用基于大模型的麻醉专家咨询系统.仅供交流学习使用.仅供交流学习使用基于大模型的数据库智能助手.仅供交流学习使用.仅供交流学习使用基于大语言模型的智能数据查询系统.仅供交流学习使用.仅供交流学习使用基于九章大模型的个性化学习产品 AI Tutor.仅供交流学习使用.仅供交流学习使用基于蚂蚁百灵大模型的支付宝智能助理.仅供交流学习使用.仅供交流学习使用基于大模型的合同解析方法.仅供交流学习使用.仅供交流学习使用开悟多模态模型焕新古典绘画艺术.仅供交流学习使用.仅供交流学习使用秘塔 AI 搜索.仅供交流学习使用.仅供交流学习使用面向集装箱物流的大模型系统 TerminalGPT仅供交流学习使用面向集装箱物流的大模型系统 TerminalGPT仅供交流学习使用.仅供交流学习使用.仅供交流学习使用浦科化学大模型体系.仅供交流学习使用.仅供交流学习使用SciMind 生物医药专利自动分析系统仅供交流学习使用SciMind 生物医药专利自动分析系统仅供交流学习使用.仅供交流学习使用.仅供交流学习使用生成式 AI 情感座舱.仅供交流学习使用.仅供交流学习使用松鼠 Ai 智适应教育大模型应用案例仅供交流学习使用松鼠 Ai 智适应教育大模型应用案例仅供交流学习使用.仅供交流学习使用.仅供交流学习使用燧原曜图-国内首款基于国产 AI 芯片的 AI 绘画 MaaS 平台仅供交流学习使用燧原曜图-国内首款基于国产 AI 芯片的 AI 绘画 MaaS 平台仅供交流学习使用.腾讯云大模型知识引擎仅供交流学习使用腾讯云大模型知识引擎仅供交流学习使用.仅供交流学习使用.仅供交流学习使用天工 SkyMusic仅供交流学习使用天工 SkyMusic仅供交流学习使用.仅供交流学习使用.仅供交流学习使用网易有灵平台面向智能体的人机协作任务平台仅供交流学习使用网易有灵平台面向智能体的人机协作任务平台仅供交流学习使用.微亿智造视觉检测多模态大模型在质检方面的应用仅供交流学习使用微亿智造视觉检测多模态大模型在质检方面的应用仅供交流学习使用.文修大模型赋能出版行业新未来仅供交流学习使用文修大模型赋能出版行业新未来仅供交流学习使用.仅供交流学习使用.仅供交流学习使用仅供交流学习使用小布助手仅供交流学习使用.仅供交流学习使用.仅供交流学习使用仅供交流学习使用“小钢”数字智能助手仅供交流学习使用.仅供交流学习使用.仅供交流学习使用仅供交流学习使用芯安智能语义助手仅供交流学习使用.仅供交流学习使用.仅供交流学习使用新一代全媒体数智化客户体验中心仅供交流学习使用新一代全媒体数智化客户体验中心仅供交流学习使用.医保小智蚂蚁百灵大模型医保 AI 智能助理仅供交流学习使用医保小智蚂蚁百灵大模型医保 AI 智能助理仅供交流学习使用.以正教育大模型在教育领域的应用仅供交流学习使用以正教育大模型在教育领域的应用仅供交流学习使用.异世界回响打造个性化人设陪伴聊天机器人仅供交流学习使用异世界回响打造个性化人设陪伴聊天机器人仅供交流学习使用.用大模型驱动内外全链路服务升级.云边异构大模型融合与优化平台.政企营销智能 Copilot 应用与创新实践.支小宝 2.0-智能金融助理.中国海油电商大模型智能化场景解决方案.“珠玑”大模型在搜推场景的赋能应用.206210214218222226230234238242248仅供交流学习使用248仅供交流学习使用仅供交流学习使用252仅供交流学习使用仅供交流学习使用256仅供交流学习使用仅供交流学习使用260仅供交流学习使用仅供交流学习使用268仅供交流学习使用仅供交流学习使用274仅供交流学习使用仅供交流学习使用278仅供交流学习使用仅供交流学习使用282仅供交流学习使用仅供交流学习使用286仅供交流学习使用290仅供交流学习使用290仅供交流学习使用296300304308314316322326328332336338342348358364368376380382386390394398Chapter行业赋能10080092024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集行业赋能INDUSTRYEMPOWERMENT10080092024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集行业赋能INDUSTRYEMPOWERMENT1仅供交流学习使用仅供交流学习使用INDUSTRY仅供交流学习使用INDUSTRYEMPOWERMENT仅供交流学习使用EMPOWERMENT仅供交流学习使用智能应用生态服务行业赋能0100112024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0100112024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集AI 智能采编系统星图比特(StarBitech)成立于2021年,由上市公司风语筑(603466)和果麦文化(301052)联合投资,是上海重点高新企业,作为全球最早一批的大模型原生应用公司,总部位于上海漕河泾微软加速器。2023 年,星图比特推出了大传媒领域的垂直大模型奇点华章大语言模型,并完成生成式大模型备案。致力于提高内容生产效率和文本质量,主要功能包含辅助选题、内容生成、审核三大功能板块,专注于内容生产的实效性、一致性、安全性的审核。星图比特具有大量的大传媒领域语料积累以及丰富的大模型行业 落地经验,侧重人工智能原生产品开发,强调交互能力卓越、用户友好度高、易操作性强,为用户提供更有幸福感的人工智能体验。果麦文化(股票代码:301052)创立于 2012 年,是一家以互联网驱动的新出版公司,在北京、上海、杭州、廊坊设有办公机构。主营业务为图书策划与发行、互联网与其他衍生业务,开辟了“出版 互联网”新商业模式,并创立了可以高品效赋能行业的“果麦模式”。创立以来,果麦文化始终秉持“以微小的力量推动文明”的企业使命,贯彻“做自己相信且喜欢的事”的企业价值观,致力于为当代读者提供“价值和美”的文化产品。近年来公司以实现内容产业“科技化”为目标,持续地以 all in 态度投入 AI 事业发展,在研及发布了多款产业大模型与 AI 工具。目前,公司已出品 1600余种图书,拥有 140 款互联网产品/账号,连接超过 9000 万用户,图书总体销售额位列大众图书公司第 4 名。随着新一代生产式人工智能技术的发展,整个大传媒行业将面临继互联网时代后新一轮的变革升级。利用人工智能大模型构建新一代智能采编系统将成为各家新闻机构的未来核心竞争力,以便提高内容生产效率和质量。新一代智能采编系统,利用包括大语言模型(LLM)、视觉大模型(LVM)、多代理服务(Multi-agent)、检索增强生成(RAG)等技术,对内容生产的流程和效果重新定义。用户可以将收集到的数据内容直接输入系统,系统会自动识别包括图文语义不规范等错误,并辅助提供可编辑的图文内容。基于此系统,不但能够提升传媒工作者的生产内容的质量,还可以更全面的审查,保证信息传达的安全性和一致性,从而让传媒工作者“提早一小时下班”。在出版内容创作过程中,素材需要收集整理,文本需要翻译和编辑,图片需要绘画适配,最后所有内容还需要“三审三校”。在互联网时代下,内容素材收集的渠道越来越多,数据越来越大,对出版物发布的实效要求也越来越高,传统的生产流程的效率低下、耗时费力,且存在大量的潜在风险。传统的辅助采编系统虽然在一定程度上解决了审校等内容准确性问题,但是整体效果欠佳,尤其是如语法错误、语义杂糅、标点符号、行业标准等问题,因此导致人工成本的居高不下。大传媒工作者和出版社都承受着巨大的工作压力,急需一款产品来辅助他们进行“AI ”转型,减轻负担。然而,现有的工具存在诸多弊端,无法满足他们的需求。星图比特 AI 采编系统是基于生成式和判别式算法,以及强化学习算法,依托强大的语义理解能力,为融媒体行业打造一站式媒体新闻发布解决方案。其核心能力包括利用人工智能技术实现多源多模态数据自动处理和分析、智能内容生成、自动审核和发布、以及舆情分析等。辅助融媒体行业进行高效、高质量、安全的内容生产和发布,实现信息的正确快速传达。上海星图比特信息技术服务有限公司概 述需求分析案例介绍联合申报单位:果麦文化传媒股份有限公司01仅供交流学习使用仅供交流学习使用是上海重点高新企业,作为全球最早一批的大模型原生应用公司,总部位于上海漕河泾微软加速器。仅供交流学习使用是上海重点高新企业,作为全球最早一批的大模型原生应用公司,总部位于上海漕河泾微软加速器。2023 年,星图比特推出了大传媒领域的垂直大模型奇点华章大语言模型,并完成生成式大模仅供交流学习使用2023 年,星图比特推出了大传媒领域的垂直大模型奇点华章大语言模型,并完成生成式大模型备案。致力于提高内容生产效率和文本质量,主要功能包含辅助选题、内容生成、审核三大功能仅供交流学习使用型备案。致力于提高内容生产效率和文本质量,主要功能包含辅助选题、内容生成、审核三大功能板块,专注于内容生产的实效性、一致性、安全性的审核。星图比特具有大量的大传媒领域语料积仅供交流学习使用板块,专注于内容生产的实效性、一致性、安全性的审核。星图比特具有大量的大传媒领域语料积累以及丰富的大模型行业 落地经验,侧重人工智能原生产品开发,强调交互能力卓越、用户友好度高、仅供交流学习使用累以及丰富的大模型行业 落地经验,侧重人工智能原生产品开发,强调交互能力卓越、用户友好度高、果麦文化(股票代码:301052)创立于 2012 年,是一家以互联网驱动的新出版公司,在北京、上海、仅供交流学习使用果麦文化(股票代码:301052)创立于 2012 年,是一家以互联网驱动的新出版公司,在北京、上海、杭州、廊坊设有办公机构。主营业务为图书策划与发行、互联网与其他衍生业务,开辟了“出版 仅供交流学习使用杭州、廊坊设有办公机构。主营业务为图书策划与发行、互联网与其他衍生业务,开辟了“出版 互联网”新商业模式,并创立了可以高品效赋能行业的“果麦模式”。创立以来,果麦文化始终秉仅供交流学习使用互联网”新商业模式,并创立了可以高品效赋能行业的“果麦模式”。创立以来,果麦文化始终秉持“以微小的力量推动文明”的企业使命,贯彻“做自己相信且喜欢的事”的企业价值观,致力于仅供交流学习使用持“以微小的力量推动文明”的企业使命,贯彻“做自己相信且喜欢的事”的企业价值观,致力于为当代读者提供“价值和美”的文化产品。近年来公司以实现内容产业“科技化”为目标,持续地仅供交流学习使用为当代读者提供“价值和美”的文化产品。近年来公司以实现内容产业“科技化”为目标,持续地以 all in 态度投入 AI 事业发展,在研及发布了多款产业大模型与 AI 工具。目前,公司已出品 1600仅供交流学习使用以 all in 态度投入 AI 事业发展,在研及发布了多款产业大模型与 AI 工具。目前,公司已出品 1600余种图书,拥有 140 款互联网产品/账号,连接超过 9000 万用户,图书总体销售额位列大众图仅供交流学习使用余种图书,拥有 140 款互联网产品/账号,连接超过 9000 万用户,图书总体销售额位列大众图书公司第 4 名。仅供交流学习使用书公司第 4 名。随着新一代生产式人工智能技术的发展,整个大传媒行业将面临继互联网时代仅供交流学习使用随着新一代生产式人工智能技术的发展,整个大传媒行业将面临继互联网时代后新一轮的变革升级。利用人工智能大模型构建新一代智能采编系统将成为各仅供交流学习使用后新一轮的变革升级。利用人工智能大模型构建新一代智能采编系统将成为各仅供交流学习使用仅供交流学习使用概述仅供交流学习使用概 述仅供交流学习使用仅供交流学习使用仅供交流学习使用统的生产流程的效率低下、耗时费力,且存在大量的潜在风险。传统的辅助采仅供交流学习使用统的生产流程的效率低下、耗时费力,且存在大量的潜在风险。传统的辅助采编系统虽然在一定程度上解决了审校等内容准确性问题,但是整体效果欠佳,仅供交流学习使用编系统虽然在一定程度上解决了审校等内容准确性问题,但是整体效果欠佳,尤其是如语法错误、语义杂糅、标点符号、行业标准等问题,因此导致人工成仅供交流学习使用尤其是如语法错误、语义杂糅、标点符号、行业标准等问题,因此导致人工成本的居高不下。大传媒工作者和出版社都承受着巨大的工作压力,急需一款产仅供交流学习使用本的居高不下。大传媒工作者和出版社都承受着巨大的工作压力,急需一款产品来辅助他们进行“AI ”转型,减轻负担。然而,现有的工具存在诸多弊端,仅供交流学习使用品来辅助他们进行“AI ”转型,减轻负担。然而,现有的工具存在诸多弊端,星图比特 AI 采编系统是基于生成式和判别式算法,以及强化学习仅供交流学习使用星图比特 AI 采编系统是基于生成式和判别式算法,以及强化学习大的语义理解能力,为融媒体行业打造一站式媒体新闻发布解决方案。其核心仅供交流学习使用大的语义理解能力,为融媒体行业打造一站式媒体新闻发布解决方案。其核心能力包括利用人工智能技术实现多源多模态数据自动处理和分析、智能内容生仅供交流学习使用能力包括利用人工智能技术实现多源多模态数据自动处理和分析、智能内容生成、自动审核和发布、以及舆情分析等。辅助融媒体行业进行高效、高质量、仅供交流学习使用成、自动审核和发布、以及舆情分析等。辅助融媒体行业进行高效、高质量、安全的内容生产和发布,实现信息的正确快速传达。仅供交流学习使用安全的内容生产和发布,实现信息的正确快速传达。仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能0120132024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0120132024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集在数据收集和管理阶段,系统对收集的到的各类数据通过机器学习和深度学习技术进行数据分析和分类,帮助理解素材的内容、主题、分类等,从而更好的进行数据管理。在创作阶段,利用奇点华章大模型辅助生成相关素材和内容,提高内容生成效率和质量。AI 审校模块主要基于奇点文辅智能审校系统以自然语言处理为基础,旨在提高文本审校效率和质量的智能化工具。审核通过的稿件可以通过智能发布系统一键发布到不同平台,提高内容传播效率和质量。同时,系统还集成了数据检测、分析和预警系统,对于传播的数据进行实时分析和监控,准确把握舆情态势,并对有安全隐患的内容进行实时预警。在技术层面,星图比特 AI 智能采编系统根据流程各个阶段的需求适当的融合机器学习和深度学习技术,在保障成本可控的情况下,提高内容生产效率和质量。奇点华章大模型基于目前先进的深度学习和强化学习技术实现,具备强大的语言理解和生成能力、上下文感知能力、多模态融合能力、迁移学习等。同时,利用大量的媒体数据对模型进行定向训练,使得模型在媒体行业展现出超强的专业能力。在智能审校方面,奇点文辅智能审校系统可以自动识别错误和不规范之处,包括语法错误、拼写错误、标点错误等。还可以识别不规范的表达方式,包括句式不通顺、语义不清晰等问题。同时系统可以给出智能化的修改建议和处理方式,并且可以提供多样化的审校选择。2023 年,中国传媒产业总产值 25229.7 亿元,全国有出版社 3500 家,2800 家日报,还有九千多种杂志,两千多个广播电台,三千多个电视频道,一百多万个网站,从业人员数百万。星图比特联合各个地方合作伙伴和产业合作伙伴,服务上述上万家的大传媒行业客户,目前已在江苏、广东、安徽等地,与出版、新闻等行业合作伙伴进行业务拓展。效益分析在数据收集和管理阶段,系统对收集的到的各类数据通过机器学习和深度学习技术进行数据分析和分类,帮仅供交流学习使用在数据收集和管理阶段,系统对收集的到的各类数据通过机器学习和深度学习技术进行数据分析和分类,帮助理解素材的内容、主题、分类等,从而更好的进行数据管理。在创作阶段,利用奇点华章大模型辅助生成仅供交流学习使用助理解素材的内容、主题、分类等,从而更好的进行数据管理。在创作阶段,利用奇点华章大模型辅助生成相关素材和内容,提高内容生成效率和质量。AI 审校模块主要基于奇点文辅智能审校系统以自然语言处理仅供交流学习使用相关素材和内容,提高内容生成效率和质量。AI 审校模块主要基于奇点文辅智能审校系统以自然语言处理为基础,旨在提高文本审校效率和质量的智能化工具。审核通过的稿件可以通过智能发布系统一键发布到不仅供交流学习使用为基础,旨在提高文本审校效率和质量的智能化工具。审核通过的稿件可以通过智能发布系统一键发布到不同平台,提高内容传播效率和质量。同时,系统还集成了数据检测、分析和预警系统,对于传播的数据进行仅供交流学习使用同平台,提高内容传播效率和质量。同时,系统还集成了数据检测、分析和预警系统,对于传播的数据进行实时分析和监控,准确把握舆情态势,并对有安全隐患的内容进行实时预警。仅供交流学习使用实时分析和监控,准确把握舆情态势,并对有安全隐患的内容进行实时预警。仅供交流学习使用仅供交流学习使用辅智能审校系统可以自动识别错误和不规范之处,包括语法错误、拼写错误、标点错误等。还可以识别不仅供交流学习使用辅智能审校系统可以自动识别错误和不规范之处,包括语法错误、拼写错误、标点错误等。还可以识别不规范的表达方式,包括句式不通顺、语义不清晰等问题。同时系统可以给出智能化的修改建议和处理方式,仅供交流学习使用规范的表达方式,包括句式不通顺、语义不清晰等问题。同时系统可以给出智能化的修改建议和处理方式,2023 年,中国传媒产业总产值 25229.7 亿元,全国有出版社 3500 家,2800 家日报,还有九千多种杂志,仅供交流学习使用2023 年,中国传媒产业总产值 25229.7 亿元,全国有出版社 3500 家,2800 家日报,还有九千多种杂志,两千多个广播电台,三千多个电视频道,一百多万个网站,从业人员数百万。星图比特联合各个地方合作伙仅供交流学习使用两千多个广播电台,三千多个电视频道,一百多万个网站,从业人员数百万。星图比特联合各个地方合作伙伴和产业合作伙伴,服务上述上万家的大传媒行业客户,目前已在江苏、广东、安徽等地,与出版、新闻等仅供交流学习使用伴和产业合作伙伴,服务上述上万家的大传媒行业客户,目前已在江苏、广东、安徽等地,与出版、新闻等仅供交流学习使用智能应用生态服务行业赋能0140152024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0140152024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集Alaya NeW 智算操作系统北京九章云极科技有限公司(简称:九章云极DataCanvas)以“创造智能,探索未知”为使命,以“助力全球企业智能升级”为愿景,是中国人工智能基础软件供应商、中国算力建设运营核心供应商。公司致力于人工智能基础软件的规模化应用,融合了世界前沿的人工智能技术,以自主创新的智算操作系统为载体,为广大用户提供“算力 算法”一体化 AI 服务,赋能其在算力经济时代轻松实现大模型应用,提速数智化升级。Alaya NeW 智算操作系统(以下简称:Alaya NeW),由九章云极 DataCanvas自主研发,可有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。作为智算中心的“中枢神经”,Alaya NeW 突破异构算力适配、异构算力调度等关键技术,实现了包括算力统筹与智能调度的底层硬件异构性兼容;简单易用且以集群为优先的策略,原生适合 AI 高性能计算,原生支持 AI 大模型 小模型的低门槛构建、训练和推理;并支持与通用大模型、行业大模型及各类大模型应用组合叠加,实现一体化、开放化、标准化的 AI 模型服务。随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业。以AIGC 为代表的人工智能应用、大模型训练等新应用、新需求快速崛起都对算力提出更高要求。经中国信息通信研究院测算,预计到 2025 年全球计算设备算力总规模将超过 3 ZFlops,至 2030 年将超过 20 ZFlops。算力作为新质生产力,已成为挖掘数据要素价值,推动数字经济发展的重要驱动力,智算中心的战略性地位愈发凸显。同时,智算中心在运营和管理过程中面临的异构算力资源纳管困难、算力调度能力不足、利用率低等难题,将严重制约智算中心的应用与发展。因此,一个能够全面服务于智算中心的中枢神经智算操作系统,将是直击这些难题的最佳方案。北京九章云极科技有限公司概 述需求分析案例介绍1、异构算力资源纳管困难智算中心逐渐引入多种不同品牌的加速硬件,往往存在异构算力不兼容、模型框架与底层芯片适配不充分等情况,导致算力调度困难、难以有效形成规模化算力。2、算力调度能力不足、利用率低在大规模数据处理和大模型训练等任务中,算力调度能力不足,使得算力分配不均衡,导致算力资源浪费和利用率下降,不能充分满足不同类型 AI 任务的调度需求,影响 AIDC 服务的整体性能。3、AI 加速优化能力不足一般针对 AI 大模型数据加载、训练、微调、推理环节,并没有实施优化或者只做了局部加速优化。因此经常受到存储访问慢,算力利用率、内存利用率、通信效率低的困扰,影响 AI 任务的完成。4、AI 大模型训练微调门槛高数据科学家往往不能掌握使用智算硬件基础设施的技能,而企业内 IT 人员缺乏对训练大模型所需的集群管理能力,缺乏一个弹性易用的集群环境以及在其之上的 AI 大模型训练微调工具链。图:Alaya NeW 智算操作系统 架构图02力全球企业智能升级”为愿景,是中国人工智能基础软件供应商、中国算力建设运营核心供应商。仅供交流学习使用力全球企业智能升级”为愿景,是中国人工智能基础软件供应商、中国算力建设运营核心供应商。公司致力于人工智能基础软件的规模化应用,融合了世界前沿的人工智能技术,以自主创新的智算仅供交流学习使用公司致力于人工智能基础软件的规模化应用,融合了世界前沿的人工智能技术,以自主创新的智算操作系统为载体,为广大用户提供“算力 算法”一体化 AI 服务,赋能其在算力经济时代轻松实仅供交流学习使用操作系统为载体,为广大用户提供“算力 算法”一体化 AI 服务,赋能其在算力经济时代轻松实Alaya NeW 智算操作系统(以下简称:Alaya NeW),由九章云极 DataCanvas仅供交流学习使用Alaya NeW 智算操作系统(以下简称:Alaya NeW),由九章云极 DataCanvas自主研发,可有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。仅供交流学习使用自主研发,可有效管理、调度各种算力资源,提供智算服务,落地各类智算应用。作为智算中心的“中枢神经”,Alaya NeW 突破异构算力适配、异构算力调度仅供交流学习使用作为智算中心的“中枢神经”,Alaya NeW 突破异构算力适配、异构算力调度等关键技术,实现了包括算力统筹与智能调度的底层硬件异构性兼容;简单易仅供交流学习使用等关键技术,实现了包括算力统筹与智能调度的底层硬件异构性兼容;简单易用且以集群为优先的策略,原生适合 AI 高性能计算,原生支持 AI 大模型 小模仅供交流学习使用用且以集群为优先的策略,原生适合 AI 高性能计算,原生支持 AI 大模型 小模型的低门槛构建、训练和推理;并支持与通用大模型、行业大模型及各类大模仅供交流学习使用型的低门槛构建、训练和推理;并支持与通用大模型、行业大模型及各类大模型应用组合叠加,实现一体化、开放化、标准化的 AI 模型服务。仅供交流学习使用型应用组合叠加,实现一体化、开放化、标准化的 AI 模型服务。随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业。以仅供交流学习使用随着人工智能技术的高速发展,智能化正以前所未有的速度重塑各行各业。以仅供交流学习使用需求分析仅供交流学习使用需求分析在大规模数据处理和大模型训练等任务中,算力调度能力不足,使得算力分配不均衡,导致算力资源浪费和仅供交流学习使用在大规模数据处理和大模型训练等任务中,算力调度能力不足,使得算力分配不均衡,导致算力资源浪费和一般针对 AI 大模型数据加载、训练、微调、推理环节,并没有实施优化或者只做了局部加速优化。因此经仅供交流学习使用一般针对 AI 大模型数据加载、训练、微调、推理环节,并没有实施优化或者只做了局部加速优化。因此经常受到存储访问慢,算力利用率、内存利用率、通信效率低的困扰,影响 AI 任务的完成。仅供交流学习使用常受到存储访问慢,算力利用率、内存利用率、通信效率低的困扰,影响 AI 任务的完成。仅供交流学习使用数据科学家往往不能掌握使用智算硬件基础设施的技能,而企业内 IT 人员缺乏对训练大模型所需的集群管仅供交流学习使用数据科学家往往不能掌握使用智算硬件基础设施的技能,而企业内 IT 人员缺乏对训练大模型所需的集群管理能力,缺乏一个弹性易用的集群环境以及在其之上的 AI 大模型训练微调工具链。仅供交流学习使用理能力,缺乏一个弹性易用的集群环境以及在其之上的 AI 大模型训练微调工具链。仅供交流学习使用智能应用生态服务行业赋能0160172024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0160172024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集一、主要能力1、告别“裸金属”通过构建多层次、全方位的算力需求满足机制,包含超级智算集群、弹性容器集群、GPU 云服务器、AI 容器实例等系列产品,为精准匹配和高效满足多样化规模及复杂度的算力求提供保障。2、为 AI 而生专注于人工智能核心任务,包括大模型的训练、微调、部署和推理等服务。提供集“算力、数据、算法、调度”为一体的融合服务,旨在推动人工智能产业化的创新发展。3、全局加速优化采用通信加速、内存优化、算法加速、数据三级缓存、内核优化、编译优化、并行加速、模型压缩等方案,释放硬件效能。集群训练效率提升 100%,单卡利用率提升 50%;模型推理速度提高 4 倍,Token 吞吐量增加 5 倍。4、异构算力纳管与调度提供包含国内外多种算力资源的适配、纳管、调度和优化。通过实时监控和管理各智算中心的智算设备,以及创新的调度算法,成功实现跨智算中心的海量算力智能调度,大幅提升算力资源的利用率。5、1 度算力Alaya NeW 首次提出了统一的算力服务计量单位“度”(DCU),并用其实现标准化的算力计量计费,旨在为用户实现“买到即用到”的算力服务,为未来算力资源互联互通打下良性商业基础。二、技术创新点 可满足多层次算力需求 一体化 AI 服务 原生适合高性能智算 大幅度提升算力效能和利用率 低门槛、高运维的 AI 运维Alaya New 智算操作系统在智算中心产业生态中处于中间位置,在底层硬件芯片和上层大模型之间建立了高效的链接,通过 AI 基础软件的创新,实现算力资源的最大化利用。也首次提出了统一的算力服务计量单位“度”(DCU),以推进标准化的算力计量计费,为未来算力资源实现互联互通打下良性商业基础。九章云极DataCanvas 携手智算产业核心生态伙伴,服务政府和企业共建智算中心,为行业提供高质量新质生产力以及全方位的 AI Foundation Service,共同推动我国人工智能产业快速发展。效益分析三、应用落地情况该产品无论在产品理念还是功能设计上都处于同行业领先水平。在未来一定周期内,将引领“智算操作系统”发展趋势,该产品提供的智算基础服务,将成为智算中心提供服务的标准范本之一。截止目前,该产品已经在九章云极 DataCanvas 参与共建的国内多个智算中心进行部署。仅供交流学习使用专注于人工智能核心任务,包括大模型的训练、微调、部署和推理等服务。提供集“算力、数据、算法、调度”仅供交流学习使用专注于人工智能核心任务,包括大模型的训练、微调、部署和推理等服务。提供集“算力、数据、算法、调度”采用通信加速、内存优化、算法加速、数据三级缓存、内核优化、编译优化、并行加速、模型压缩等方案,仅供交流学习使用采用通信加速、内存优化、算法加速、数据三级缓存、内核优化、编译优化、并行加速、模型压缩等方案,释放硬件效能。集群训练效率提升 100%,单卡利用率提升 50%;模型推理速度提高 4 倍,Token 吞吐量增仅供交流学习使用释放硬件效能。集群训练效率提升 100%,单卡利用率提升 50%;模型推理速度提高 4 倍,Token 吞吐量增提供包含国内外多种算力资源的适配、纳管、调度和优化。通过实时监控和管理各智算中心的智算设备,以仅供交流学习使用提供包含国内外多种算力资源的适配、纳管、调度和优化。通过实时监控和管理各智算中心的智算设备,以及创新的调度算法,成功实现跨智算中心的海量算力智能调度,大幅提升算力资源的利用率。仅供交流学习使用及创新的调度算法,成功实现跨智算中心的海量算力智能调度,大幅提升算力资源的利用率。Alaya NeW 首次提出了统一的算力服务计量单位“度”(DCU),并用其实现标准化的算力计量计费,旨仅供交流学习使用Alaya NeW 首次提出了统一的算力服务计量单位“度”(DCU),并用其实现标准化的算力计量计费,旨在为用户实现“买到即用到”的算力服务,为未来算力资源互联互通打下良性商业基础。仅供交流学习使用在为用户实现“买到即用到”的算力服务,为未来算力资源互联互通打下良性商业基础。二、技术创新点仅供交流学习使用二、技术创新点仅供交流学习使用 可满足多层次算力需求仅供交流学习使用可满足多层次算力需求仅供交流学习使用 一体化 AI 服务仅供交流学习使用一体化 AI 服务仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用Alaya New 智算操作系统在智算中心产业生态中处于中间位置,在底层硬件芯仅供交流学习使用Alaya New 智算操作系统在智算中心产业生态中处于中间位置,在底层硬件芯片和上层大模型之间建立了高效的链接,通过 AI 基础软件的创新,实现算力资仅供交流学习使用片和上层大模型之间建立了高效的链接,通过 AI 基础软件的创新,实现算力资源的最大化利用。也首次提出了统一的算力服务计量单位“度”(DCU),以推进仅供交流学习使用源的最大化利用。也首次提出了统一的算力服务计量单位“度”(DCU),以推进标准化的算力计量计费,为未来算力资源实现互联互通打下良性商业基础。九仅供交流学习使用标准化的算力计量计费,为未来算力资源实现互联互通打下良性商业基础。九仅供交流学习使用章云极DataCanvas 携手智算产业核心生态伙伴,服务政府和企业共建智算中心,仅供交流学习使用章云极DataCanvas 携手智算产业核心生态伙伴,服务政府和企业共建智算中心,为行业提供高质量新质生产力以及全方位的 AI Foundation Service,共同推动仅供交流学习使用为行业提供高质量新质生产力以及全方位的 AI Foundation Service,共同推动我国人工智能产业快速发展。仅供交流学习使用我国人工智能产业快速发展。智能应用生态服务行业赋能0180192024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0180192024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集AIPC 与云端联动的星环无涯问知大模型星环科技(688031)致力于打造企业级大数据基础软件,围绕数据集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件与服务,构建明日数据世界。公司拥有大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具、基于大模型的知识平台等多个产品线,境内外发明专利超百项。公司产品已在十几个行业应用落地,拥有超过1400 家终端用户。公司是中国首个进入 Gartner 数据仓库及数据管理解决方案魔力象限的厂商;12 年来全球首个通过 TPC-DS 测试及官方审计;曾被 Gartner 评为数据中台及图数据库领域全球推荐供应商;多次被IDC 评为中国大数据市场领导者;全球首个通过 TPCx-AI 基准测试及官方审计的软件厂商,单节点性能全球第一。2022 年成功登陆上交所科创板。为缓解企业 AI 算力的不足,星环科技基于 AIPC 为个人用户推出了适用于 PC 端的大模型智能生产力工具星环无涯大模型 AIPC 版。该产品可以快速构建个人知识库,能够帮助用户在繁杂的本地文件和实时资讯中迅速找到所需信息,高效管理本地知识,并快速形成深刻洞察。星环无涯大模型 AIPC 版还支持与企业知识库的云边算力联动,确保了企业内部数据安全性。简单问题可以由本地 AIPC 版本模型快速处理,而复杂疑难问题则可以提交给云端大模型进行深入分析。这种弹性扩展的能力,确保了企业在面对不同挑战时,都能够获得足够的计算支持。星环科技基于 AIPC 开发的星环无涯大模型,标志着大模型个人应用时代的正式开启,能够为用户带来前所未有的智能体验。近年来,大模型已展现出令人惊叹的智能涌现能力,但出于数据安全和隐私保护的考虑,以及更高效率、更低成本响应用户需求的考虑,人们既希望获得公共大模型强大的通用服务,又希望 AI 能够真正理解自己、提供专属个人的服务,并且能够充分保障个人数据和隐私安全。因此,AIPC成为了用户的最佳首选终端,因为它既安全又智能,不难看出,AIPC 市场将在未来几年快速增长。星环无涯是业内最早发布的一款可用于金融智能投研大模型,也是最早应用在 AIPC 中的个人知识库应用,正式开启了大模型的个人应用时代。星环无涯可以在配备 Intel 新一代 CPU 的主流个人电脑上,基于集成显卡和 NPU 流畅运行。这款大模型版本拥有几大显著能力:首先,它具备泛行业的知识获取能力。星环无涯内置了丰富的上市公司财报、产业链图谱数据及常见的法律法规知识,并且拥有官方资讯、门户类网站、自媒体财经舆情等广泛的权威信息来源和高质量多维数据,能够实现投资研究分析、市场及企业分析、法律风险研判、实时资讯解读、智能问答、多模态语义检索等功能,可以成为个人用户强有力的知识助手。其次,提供知识即服务(Knowledge as a Service,KaaS),将知识的抽取、表达、对齐、融合、存储、检索和应用等环节整合在一起,形成一个完整的服务体系,支持结构化、全文、图谱、向量等不同模态的数据,满足投研需求。此外,该版本提供了出色的内容理解能力。这包括对感知和认知层面的深度理解,以及对事实、流程、图谱等高级语意的精准把握。这种能力使得无涯大模型 AIPC 版能够更准确地理解用户需求,从而提供更精准的服务。最后,它还具备强大的数据分析能力。对于可量化的内容,无涯大模型 AIPC 版能够提供高效的计算和分析能力,帮助用户从海量数据中提取有价值的信息。在产品内部,提供了本地化的向量库,不论是文本、图片、音视频等文件格式,还是政策、法规、年报、新闻、分析报告等多元内容类型,都能够通过嵌入式编码器向量化后存入分布式向量数据库 Hippo,实现切星环信息科技(上海)股份有限公司概 述需求分析案例介绍图一03仅供交流学习使用仅供交流学习使用公司拥有大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具、基于大模型的仅供交流学习使用公司拥有大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具、基于大模型的知识平台等多个产品线,境内外发明专利超百项。公司产品已在十几个行业应用落地,拥有超过仅供交流学习使用知识平台等多个产品线,境内外发明专利超百项。公司产品已在十几个行业应用落地,拥有超过公司是中国首个进入 Gartner 数据仓库及数据管理解决方案魔力象限的厂商;12 年来全球首个通仅供交流学习使用公司是中国首个进入 Gartner 数据仓库及数据管理解决方案魔力象限的厂商;12 年来全球首个通过 TPC-DS 测试及官方审计;曾被 Gartner 评为数据中台及图数据库领域全球推荐供应商;多次被仅供交流学习使用过 TPC-DS 测试及官方审计;曾被 Gartner 评为数据中台及图数据库领域全球推荐供应商;多次被IDC 评为中国大数据市场领导者;全球首个通过 TPCx-AI 基准测试及官方审计的软件厂商,单节点仅供交流学习使用IDC 评为中国大数据市场领导者;全球首个通过 TPCx-AI 基准测试及官方审计的软件厂商,单节点性能全球第一。2022 年成功登陆上交所科创板。仅供交流学习使用性能全球第一。2022 年成功登陆上交所科创板。为缓解企业 AI 算力的不足,星环科技基于 AIPC 为个人用户推出了适用于 PC 端仅供交流学习使用为缓解企业 AI 算力的不足,星环科技基于 AIPC 为个人用户推出了适用于 PC 端的大模型智能生产力工具星环无涯大模型 AIPC 版。该产品可以快速构建个仅供交流学习使用的大模型智能生产力工具星环无涯大模型 AIPC 版。该产品可以快速构建个人知识库,能够帮助用户在繁杂的本地文件和实时资讯中迅速找到所需信息,仅供交流学习使用人知识库,能够帮助用户在繁杂的本地文件和实时资讯中迅速找到所需信息,高效管理本地知识,并快速形成深刻洞察。仅供交流学习使用高效管理本地知识,并快速形成深刻洞察。星环无涯大模型 AIPC 版还支持与企业知识库的云边算力联动,确保了企业内部仅供交流学习使用星环无涯大模型 AIPC 版还支持与企业知识库的云边算力联动,确保了企业内部数据安全性。简单问题可以由本地 AIPC 版本模型快速处理,而复杂疑难问题则仅供交流学习使用数据安全性。简单问题可以由本地 AIPC 版本模型快速处理,而复杂疑难问题则仅供交流学习使用仅供交流学习使用仅供交流学习使用媒体财经舆情等广泛的权威信息来源和高质量多维数据,能够实现投资研究分析、市场及企业分析、法律风仅供交流学习使用媒体财经舆情等广泛的权威信息来源和高质量多维数据,能够实现投资研究分析、市场及企业分析、法律风险研判、实时资讯解读、智能问答、多模态语义检索等功能,可以成为个人用户强有力的知识助手。其次,仅供交流学习使用险研判、实时资讯解读、智能问答、多模态语义检索等功能,可以成为个人用户强有力的知识助手。其次,仅供交流学习使用提供知识即服务(Knowledge as a Service,KaaS),将知识的抽取、表达、对齐、融合、存储、检索和应仅供交流学习使用提供知识即服务(Knowledge as a Service,KaaS),将知识的抽取、表达、对齐、融合、存储、检索和应用等环节整合在一起,形成一个完整的服务体系,支持结构化、全文、图谱、向量等不同模态的数据,满足仅供交流学习使用用等环节整合在一起,形成一个完整的服务体系,支持结构化、全文、图谱、向量等不同模态的数据,满足投研需求。此外,该版本提供了出色的内容理解能力。这包括对感知和认知层面的深度理解,以及对事实、仅供交流学习使用投研需求。此外,该版本提供了出色的内容理解能力。这包括对感知和认知层面的深度理解,以及对事实、流程、图谱等高级语意的精准把握。这种能力使得无涯大模型 AIPC 版能够更准确地理解用户需求,从而提仅供交流学习使用流程、图谱等高级语意的精准把握。这种能力使得无涯大模型 AIPC 版能够更准确地理解用户需求,从而提供更精准的服务。最后,它还具备强大的数据分析能力。对于可量化的内容,无涯大模型 AIPC 版能够提供仅供交流学习使用供更精准的服务。最后,它还具备强大的数据分析能力。对于可量化的内容,无涯大模型 AIPC 版能够提供高效的计算和分析能力,帮助用户从海量数据中提取有价值的信息。仅供交流学习使用高效的计算和分析能力,帮助用户从海量数据中提取有价值的信息。仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能0200212024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0200212024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集片及向量化处理,并通过 TKS 图谱工具和 TCS 语料开发工具实现语料的清洗加工及知识的抽取、建模和融合,最终经由大模型的推理和复杂运算,实现投研用户在通过自然语言与纷繁的资讯及研究报告进行对话,极大提升工作效率。除了影、音、图、文等多模态数据和资料的“知识化”处理,星环无涯 AIPC 版还具备相应的“语义化”查询和应用能力。这意味着用户不仅可以通过文字来获取知识,还可以通过图片、音频和视频等多种方式,使知识的获取和应用更加丰富多彩。此外,该产品还配备了自研的 RAG 模块,该模块可在 AIPC 上本地化运行,为丰富的知识库应用提供强大的支持。这不仅为用户提供了极大的便利性,同时也保障了用户知识和应用的隐私性和高效性。最后,星环无涯 AIPC 版还具备出色的数据分析能力,能够对数量化的数据进行精准的分析和研判,从而释放数据的潜在价值。据IDC AI PC产业(中国)白皮书 统计,未来五年在面向个人和家庭的消费市场、中小企业市场和大型企业市场,AI PC 的销售额将从 2023 年的 175.3 亿元快速攀升至 2027 年的 2308 亿元,增长分别为 8.3 倍、16 倍和 191 倍。IDC 预测,AI PC 在中国中小企业 PC 市场中新机的装配比例提升速度将高于消费市场,在2027 年达到 88%。AI PC 在中国大型企业 PC 市场中新机的装配比例将于 2027年达到 74%,其中 IT、互联网、金融和专业服务等科技领先行业的大型企业将率先导入 AI PC。随着 AIPC 市场的快速增长,基于 AIPC 的软件市场也将随之进一步提高,并且作为提升个人和企业生产力的知识库产品,基于星环科技的无涯大模型 AIPC 版本开发的各类应用,都将释放企业自有和个人自身的潜在数据价值,促进数据创新。效益分析仅供交流学习使用询和应用能力。这意味着用户不仅可以通过文字来获取知识,还可以通过图片、音频和视频等多种方式,使仅供交流学习使用询和应用能力。这意味着用户不仅可以通过文字来获取知识,还可以通过图片、音频和视频等多种方式,使此外,该产品还配备了自研的 RAG 模块,该模块可在 AIPC 上本地化运行,为丰富的知识库应用提供强大的仅供交流学习使用此外,该产品还配备了自研的 RAG 模块,该模块可在 AIPC 上本地化运行,为丰富的知识库应用提供强大的支持。这不仅为用户提供了极大的便利性,同时也保障了用户知识和应用的隐私性和高效性。最后,星环无仅供交流学习使用支持。这不仅为用户提供了极大的便利性,同时也保障了用户知识和应用的隐私性和高效性。最后,星环无涯 AIPC 版还具备出色的数据分析能力,能够对数量化的数据进行精准的分析和研判,从而释放数据的潜在仅供交流学习使用涯 AIPC 版还具备出色的数据分析能力,能够对数量化的数据进行精准的分析和研判,从而释放数据的潜在据IDC AI PC产业(中国)白皮书 统计,未来五年在面向个人和家庭的消费市场、仅供交流学习使用据IDC AI PC产业(中国)白皮书 统计,未来五年在面向个人和家庭的消费市场、中小企业市场和大型企业市场,AI PC 的销售额将从 2023 年的 175.3 亿元快速仅供交流学习使用中小企业市场和大型企业市场,AI PC 的销售额将从 2023 年的 175.3 亿元快速攀升至 2027 年的 2308 亿元,增长分别为 8.3 倍、16 倍和 191 倍。IDC 预测,仅供交流学习使用攀升至 2027 年的 2308 亿元,增长分别为 8.3 倍、16 倍和 191 倍。IDC 预测,AI PC 在中国中小企业 PC 市场中新机的装配比例提升速度将高于消费市场,在仅供交流学习使用AI PC 在中国中小企业 PC 市场中新机的装配比例提升速度将高于消费市场,在仅供交流学习使用2027 年达到 88%。AI PC 在中国大型企业 PC 市场中新机的装配比例将于 2027仅供交流学习使用2027 年达到 88%。AI PC 在中国大型企业 PC 市场中新机的装配比例将于 2027年达到 74%,其中 IT、互联网、金融和专业服务等科技领先行业的大型企业将仅供交流学习使用年达到 74%,其中 IT、互联网、金融和专业服务等科技领先行业的大型企业将率先导入 AI PC。仅供交流学习使用率先导入 AI PC。随着 AIPC 市场的快速增长,基于 AIPC 的软件市场也将随之进一步提高,并且仅供交流学习使用随着 AIPC 市场的快速增长,基于 AIPC 的软件市场也将随之进一步提高,并且作为提升个人和企业生产力的知识库产品,基于星环科技的无涯大模型 AIPC 版仅供交流学习使用作为提升个人和企业生产力的知识库产品,基于星环科技的无涯大模型 AIPC 版仅供交流学习使用仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能0220232024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0220232024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集百秋 AIGC 零售全链路数智洞察平台上海百秋尚美科技服务集团股份有限公司成立于 2010 年,是专注国际知名时尚、运动、美妆品牌的全链路、多渠道数字化零售综合运营服务商。目前为超 120 家国际中高端时尚品牌提供一站式数字化综合零售运营服务,服务涵盖品牌店铺运营、商品规划与执行、人群及流量运营、客户顾问服务、全域会员管理、直播运营及仓储与物流管理等全链路电商运营服务,及品牌营销策略制定、创意生产、媒介采买和落地执行的一站式营销服务等。百秋基于 AIGC 面向零售行业的全链路、多渠道数智化产业服务平台致力于面向零售行业的延伸,计划推动数字化赋能行业高质量发展,具体包括以下三方面:数字零售全链路通用洞察分析、客服洞察定制、智能客服平台。在当前数字化转型的浪潮下,零售行业的竞争日益加剧,百秋旨在通过大模型的应用,为行业提供典型的示范应用案例,展示如何利用人工智能技术提升品牌运营效率与消费者满意度。百秋 AIGC 零售全链路数智洞察平台(以下简称:百秋 AIGC 平台)构建了完善的客户价值体系,除基于 RFM 模型对客户的购买行为进行分析外,还整合了CRM(客户关系管理)和 CEM(客户体验管理)。通过品类构成与增速的细致研究,为品牌方提供科学的商品策略和价格制定指导。运用清华智谱、通义千问、GPT3.5、GPT4 等大模型对大数据的训练和分析,提升价值密度,优化商品均价与赠品价值策略,有效提升商品吸引力及销售效率。通过深入分析真实的净客单价,帮助品牌方精准定位价格策略,制定相应的市场对策。百秋 AIGC 平台已应用于超百家品牌店铺,支持品牌在天猫、京东和抖音平台,及官网小程序私域平台的数智化经营,实施后帮助品牌获得 3%-5%的销售增长,消费者满意度提升 5%-20%,企业内部运营成本降低 10%。在数字零售行业的实际运营过程中,品牌方需要面对大量的数据,包括销售、人群、商品、订单等各方面,传统的数据分析工具和方法无法高效、精准地满足品牌方的精细化需求。品牌方迫切需要通过技术研发与业务流程的深度融合,实现从供应链管理到消费者体验的全方位优化,运用大模型等先进的人工智能技术,针对人、货、场等不同场景快速、精准地提供洞察分析和决策建议,从而实现进一步提升品牌运营效率。百秋 AIGC 平台凭借在技术和科研方面的持续投入,不断面向零售行业的延伸,实现数字化赋能高质量发展。百秋AIGC平台不仅专注于数字零售的全链路运营,还积极扩展至产业链上下游,构建了一个完整的服务体系。通过加速品牌零售业务的数字化转型,显著提升了品牌的运营效率。百秋拥有 200 余项知识产权,并在平台内集成了 16 款自主研发的应用,涵盖从产品研发辅助到零售的多个环节,并与品牌方在设计和生产场景中进行深入探索,在同行业中处于领先地位。主要能力:1.数字零售全链路通用洞察分析:使用 LLM 搭建各品类的内容标签体系,打造旗舰店流量 销售的相关性产品,赋能产品的研发、生产以及营销策略。同时实现运营商业洞察自动化,并支持多语言场景。2.客服洞察定制:应用 GPT 的推理引擎,结合订单、商品数据,完成自动化影响分析,形成可执行的业务洞察,直接驱动商品的生产、开发迭代,以及营销、零售的调整。3.构建完善的客户价值体系:整合 CRM(客户关系管理)和 CEM(客户体验管理),CRM 系统通过整合交易记录、沟通历史等行为文本,优化客户互动和服务效率;而 CEM 则从客户角度出发,分析客户满意度调查、反馈和社交媒体互动等态度文本,从而全面提升客户体验。技术创新:1.百秋在现有大模型的基础上,使用自主研发的RAG技术、推理引擎以及知识库,在应用场景上做创新探索。2.在客户价值体系以及商品复购知识图谱,百秋借鉴行业的最佳实践,融合百秋在时尚、运动、美妆行业独有的电商经验和技术手段,推动行业发展。具体技术包括:LLM 大模型:使用了 GPT3.5、GPT4、通义千问、智谱 AI 等模型,提升客户服务质量,通过对话管理和意图识别,提高销售效率。大数据和 AI:使用 OLAP 分析、线性回归、神经网络等,以深入理解消费者偏好,优化产品分类和营销策略。NLP:通过技术如 Word2Vec,NER,Bert 分析社交媒体和电商平台上的消费者反馈。上海百秋尚美科技服务集团股份有限公司概 述需求分析案例介绍04仅供交流学习使用仅供交流学习使用的全链路、多渠道数字化零售综合运营服务商。目前为超 120 家国际中高端时尚品牌提供一站式数仅供交流学习使用的全链路、多渠道数字化零售综合运营服务商。目前为超 120 家国际中高端时尚品牌提供一站式数字化综合零售运营服务,服务涵盖品牌店铺运营、商品规划与执行、人群及流量运营、客户顾问服仅供交流学习使用字化综合零售运营服务,服务涵盖品牌店铺运营、商品规划与执行、人群及流量运营、客户顾问服务、全域会员管理、直播运营及仓储与物流管理等全链路电商运营服务,及品牌营销策略制定、创仅供交流学习使用务、全域会员管理、直播运营及仓储与物流管理等全链路电商运营服务,及品牌营销策略制定、创意生产、媒介采买和落地执行的一站式营销服务等。百秋基于 AIGC 面向零售行业的全链路、多渠仅供交流学习使用意生产、媒介采买和落地执行的一站式营销服务等。百秋基于 AIGC 面向零售行业的全链路、多渠道数智化产业服务平台致力于面向零售行业的延伸,计划推动数字化赋能行业高质量发展,具体包仅供交流学习使用道数智化产业服务平台致力于面向零售行业的延伸,计划推动数字化赋能行业高质量发展,具体包括以下三方面:数字零售全链路通用洞察分析、客服洞察定制、智能客服平台。仅供交流学习使用括以下三方面:数字零售全链路通用洞察分析、客服洞察定制、智能客服平台。在当前数字化转型的浪潮下,零售行业的竞争日益加剧,百秋旨在通过大模型仅供交流学习使用在当前数字化转型的浪潮下,零售行业的竞争日益加剧,百秋旨在通过大模型的应用,为行业提供典型的示范应用案例,展示如何利用人工智能技术提升品仅供交流学习使用的应用,为行业提供典型的示范应用案例,展示如何利用人工智能技术提升品牌运营效率与消费者满意度。仅供交流学习使用牌运营效率与消费者满意度。百秋 AIGC 零售全链路数智洞察平台(以下简称:百秋 AIGC 平台)构建了完善仅供交流学习使用百秋 AIGC 零售全链路数智洞察平台(以下简称:百秋 AIGC 平台)构建了完善的客户价值体系,除基于 RFM 模型对客户的购买行为进行分析外,还整合了仅供交流学习使用的客户价值体系,除基于 RFM 模型对客户的购买行为进行分析外,还整合了CRM(客户关系管理)和 CEM(客户体验管理)。通过品类构成与增速的细致仅供交流学习使用CRM(客户关系管理)和 CEM(客户体验管理)。通过品类构成与增速的细致研究,为品牌方提供科学的商品策略和价格制定指导。运用清华智谱、通义千问、仅供交流学习使用研究,为品牌方提供科学的商品策略和价格制定指导。运用清华智谱、通义千问、GPT3.5、GPT4 等大模型对大数据的训练和分析,提升价值密度,优化商品均价仅供交流学习使用GPT3.5、GPT4 等大模型对大数据的训练和分析,提升价值密度,优化商品均价与赠品价值策略,有效提升商品吸引力及销售效率。通过深入分析真实的净客仅供交流学习使用与赠品价值策略,有效提升商品吸引力及销售效率。通过深入分析真实的净客单价,帮助品牌方精准定位价格策略,制定相应的市场对策。仅供交流学习使用单价,帮助品牌方精准定位价格策略,制定相应的市场对策。仅供交流学习使用仅供交流学习使用仅供交流学习使用环节,并与品牌方在设计和生产场景中进行深入探索,在同行业中处于领先地位。仅供交流学习使用环节,并与品牌方在设计和生产场景中进行深入探索,在同行业中处于领先地位。使用 LLM 搭建各品类的内容标签体系,打造仅供交流学习使用使用 LLM 搭建各品类的内容标签体系,打造旗舰店流量 销售的相关性产品,赋能产品的研发、生产以及营销策略。同时仅供交流学习使用旗舰店流量 销售的相关性产品,赋能产品的研发、生产以及营销策略。同时应用 GPT 的推理引擎,结合订单、商品数据,完成自动化影仅供交流学习使用应用 GPT 的推理引擎,结合订单、商品数据,完成自动化影响分析,形成可执行的业务洞察,直接驱动商品的生产、开发迭代,以及营销、仅供交流学习使用响分析,形成可执行的业务洞察,直接驱动商品的生产、开发迭代,以及营销、3.构建完善的客户价值体系:仅供交流学习使用3.构建完善的客户价值体系:整合 CRM(客户关系管理)和 CEM(客户体验仅供交流学习使用整合 CRM(客户关系管理)和 CEM(客户体验管理),CRM 系统通过整合交易记录、沟通历史等行为文本,优化客户互动仅供交流学习使用管理),CRM 系统通过整合交易记录、沟通历史等行为文本,优化客户互动和服务效率;而 CEM 则从客户角度出发,分析客户满意度调查、反馈和社交仅供交流学习使用和服务效率;而 CEM 则从客户角度出发,分析客户满意度调查、反馈和社交媒体互动等态度文本,从而全面提升客户体验。仅供交流学习使用媒体互动等态度文本,从而全面提升客户体验。技术创新:仅供交流学习使用技术创新:1.百秋在现有大模型的基础上,使用自主研发的RAG技术、推理引擎以及知识库,仅供交流学习使用1.百秋在现有大模型的基础上,使用自主研发的RAG技术、推理引擎以及知识库,在应用场景上做创新探索。仅供交流学习使用在应用场景上做创新探索。智能应用生态服务行业赋能0240252024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0240252024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集 RFM 用户分层模型:根据用户在电商购物和订单的主要特征,进行分类排队,分清重点和一般,从而有区别地确定市场营销和客户触达方式。实施效果及应用落地情况:目前百秋 AIGC 平台在数字零售市场中,已应用于超百家品牌店铺,支持品牌在天猫、京东和抖音平台,及官网小程序私域平台的数智化经营。图 1:百秋 AIGC 零售全链路数智洞察平台-天猫首页概览图 2:百秋 AIGC 零售全链路数智洞察平台-抖音首页概览仅供交流学习使用目前百秋 AIGC 平台在数字零售市场中,已应用于超百家品牌店铺,支持品牌在天猫、京东和抖音平台,及仅供交流学习使用目前百秋 AIGC 平台在数字零售市场中,已应用于超百家品牌店铺,支持品牌在天猫、京东和抖音平台,及仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能0260272024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0260272024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集图 3:单店大语言模型客服分析场景展示图 4:单店大语言模型客服售后分析图 5:复购算法模型仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用图 4:单店大语言模型客服售后分析仅供交流学习使用图 4:单店大语言模型客服售后分析仅供交流学习使用智能应用生态服务行业赋能0280292024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0280292024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集图 6:消费者分层模型社会效益:百秋 AIGC 平台为零售行业,特别是品牌方提供了一种革命性的方式,通过集成先进的自然语言处理技术,百秋 AIGC 平台能够理解和响应品牌方的需求,提供即时、准确的客户服务解决方案。帮助企业构建更加智能化、自动化的全链路解决方案,并支持多语言场景,匹配国际品牌的本土化需求,通过技术创新应用带动数字零售产业链高质量发展。经济效益:直接经济效益因阿里平台业务的复杂度难以全面量化,但通过实施本方案,品牌方获得 3-5%的销售增长,在行业退款率普遍上涨的情况下,较大盘少涨 3%。应用推广情况:本技术解决方案已应用于企业内部及市场化推广。在内部应用,主要通过大模型训练和分析客户数据来优化决策过程,平均降低了 25%的市场分析费用。客户价值体系的集成使得消费者满意度提高 5%-20%,内部运营成本降低 10%。在市场化、产业化应用,该技术方案已应用于天猫、京东和抖音平台,及小程序私域平台的店铺运营。效益分析仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用解决方案,并支持多语言场景,匹配国际品牌的本土化需求,通过技术创新应仅供交流学习使用解决方案,并支持多语言场景,匹配国际品牌的本土化需求,通过技术创新应直接经济效益因阿里平台业务的复杂度难以全面量化,但通过实施本方案,品仅供交流学习使用直接经济效益因阿里平台业务的复杂度难以全面量化,但通过实施本方案,品牌方获得 3-5%的销售增长,在行业退款率普遍上涨的情况下,较大盘少涨 3%。仅供交流学习使用牌方获得 3-5%的销售增长,在行业退款率普遍上涨的情况下,较大盘少涨 3%。本技术解决方案已应用于企业内部及市场化推广。在内部应用,主要通过大模仅供交流学习使用本技术解决方案已应用于企业内部及市场化推广。在内部应用,主要通过大模型训练和分析客户数据来优化决策过程,平均降低了 25%的市场分析费用。客仅供交流学习使用型训练和分析客户数据来优化决策过程,平均降低了 25%的市场分析费用。客户价值体系的集成使得消费者满意度提高 5%-20%,内部运营成本降低 10%。仅供交流学习使用户价值体系的集成使得消费者满意度提高 5%-20%,内部运营成本降低 10%。仅供交流学习使用在市场化、产业化应用,该技术方案已应用于天猫、京东和抖音平台,及小程仅供交流学习使用在市场化、产业化应用,该技术方案已应用于天猫、京东和抖音平台,及小程序私域平台的店铺运营。仅供交流学习使用序私域平台的店铺运营。智能应用生态服务行业赋能0300312024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0300312024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集保险行业 AI 大模型助手产品氪信科技成立于 2015 年,是中国首家以 AI 原生方案解决金融安全及欺诈问题的公司,在反欺诈领域储备深厚,已积累数十项专利和近百项软著,在 Nature 等多个权威期刊发表论文并获得中国计算机学会(CCF)科技进步杰出奖、吴文俊人工智能科技进步奖、世界人工智能大会最高奖“SAIL奖”等科技界重磅奖项,公司主打产品氪信领航以独特的分布式学习超参数 AI 大模型为核心,针对海量风险账户进行训练,提前精准预测发现犯罪分子,识别风险的能力已超过人类水平,已经成为金融行业的 AI 数字专家,守护亿万老百姓和金融机构的账户安全。随着人工智能技术的快速发展,大模型正加速保险行业的智能化转型。保险业作为人力密集和数据密集的行业,特别适合通过大模型来革新客服、营销和理赔等场景。本案例中的保险AI大模型助手,主要聚焦于保险营销,提供智能问答、产品信息检索、产品数据计算等功能,极大提升保险代理人的工作效率,并优化客户服务体验。技术上,该助手基于开源 LLM 模型并进行微调,通过 RAG 架构集成保险知识库来提升问答的准确性和专业性。产品可以以侧边栏的形式嵌入企业微信等通讯软件,为代理人在客户沟通中提供边聊边查的实时辅助,有效整合“人工 大模型”的合作模式,降低合规风险,实现降本增效的商业价值。保险 AI 大模型助手通过整合尖端的大模型技术和专业的保险知识库,为保险代理人提供了一个强大的支持工具,以提高服务效率和专业水平。这款助手利用从公开数据中微调的保险专用大模型,结合 LLM RAG 的检索架构,为保险代理提供定制化问答服务,从而确保信息的准确性和响应速度。主要能力保险 AI 大模型助手集成了先进的 LLM 大模型技术,使用公开的保险数据进行特定的微调训练,以增强对保险产品、条款和市场动态的理解。此外,通过LLM RAG 架构嵌入外部保险知识库数据,助手能够提供高度定制化的问答服务。助手还扩展了多项功能,包括常见保险知识问答、保险产品信息检索、保险数据计算器、沟通记录总结和待办事项生成,通过指令优化确保精确执行特定保险场景任务。技术创新点1.基于公开保险知识数据微调的保险大模型:特别针对保险行业需求进行定制化训练,优化对保险产品和条款的理解;2.基于 ES Milvus 的 LLM RAG 混合检索架构:结合了文本搜索的精准度与生成模型的应答灵活性,有效提升信息检索的准确性和响应速度;3.保险场景特定任务指令优化:针对产品推荐、产品比对等保险特定任务进行了指令优化,提高操作的精准性和效率;实施效果保险 AI 大模型助手已成功嵌入超过百款保险产品,并支持自动解读保险条款,能够针对涉及产品条款和年金计算等复杂问题进行实时响应。通过保险 AI 大模型助手的应用,可以实现以下效益:工作效率提升:客户需求响应时间降低,日触达客户数增加,客户信息和需求收集准确率和覆盖率提升,帮助保险代理人更高效地处理客户需求,提升服务质量;培训成本降低:专业知识学习时间减少,客户异议问题处理方式培训成本下降,保险代理人可以更快速地掌握所需知识和技能,降低培训成本,助力了增员;管理成本减少:管理者检查顾问工作情况的时间大幅降低,保险代理人的工作更加高效,管理成本得到有效控制;随着保险市场竞争的加剧和互联网保险平台的兴起,传统保险企业面临提升客户服务的迫切需求,这对保险代理人提出了从“产品销售”向“客户专家”的角色转变,要求他们不仅要精通产品销售,还需掌握核保、理赔等业务,以适应客户的多样化和个性化需求。保险 AI 大模型助手应运而生,旨在通过提升代理人的专业能力和服务水平,实现个性化客户服务、优化沟通与销售策略、提供售后支持和效率提升。这些工具通过自动化处理常规查询和事务,同时提供培训、风险评估、产品推荐和多渠道互动支持,助力代理人有效管理客户关系和确保销售合规,以增强客户体验和推动业绩增长。大模型技术的深入应用不仅优化了保险业务流程,也增强了对业务针对性和安全性的考虑。垂直大模型比通用大模型更有价值,对业务的针对性更强。出于安全性考虑,大模型应用应先内后外,优先应用于内部各类管理场景,谨慎应用于对外客户场景。上海氪信信息技术有限公司概 述案例介绍需求分析05仅供交流学习使用仅供交流学习使用域储备深厚,已积累数十项专利和近百项软著,在 Nature 等多个权威期刊发表论文并获得中国计仅供交流学习使用域储备深厚,已积累数十项专利和近百项软著,在 Nature 等多个权威期刊发表论文并获得中国计算机学会(CCF)科技进步杰出奖、吴文俊人工智能科技进步奖、世界人工智能大会最高奖“SAIL仅供交流学习使用算机学会(CCF)科技进步杰出奖、吴文俊人工智能科技进步奖、世界人工智能大会最高奖“SAIL奖”等科技界重磅奖项,公司主打产品氪信领航以独特的分布式学习超参数 AI 大模型为核心,仅供交流学习使用奖”等科技界重磅奖项,公司主打产品氪信领航以独特的分布式学习超参数 AI 大模型为核心,针对海量风险账户进行训练,提前精准预测发现犯罪分子,识别风险的能力已超过人类水平,已经仅供交流学习使用针对海量风险账户进行训练,提前精准预测发现犯罪分子,识别风险的能力已超过人类水平,已经随着人工智能技术的快速发展,大模型正加速保险行业的智能化转型。保险业仅供交流学习使用随着人工智能技术的快速发展,大模型正加速保险行业的智能化转型。保险业作为人力密集和数据密集的行业,特别适合通过大模型来革新客服、营销和理仅供交流学习使用作为人力密集和数据密集的行业,特别适合通过大模型来革新客服、营销和理赔等场景。本案例中的保险AI大模型助手,主要聚焦于保险营销,提供智能问答、仅供交流学习使用赔等场景。本案例中的保险AI大模型助手,主要聚焦于保险营销,提供智能问答、产品信息检索、产品数据计算等功能,极大提升保险代理人的工作效率,并优仅供交流学习使用产品信息检索、产品数据计算等功能,极大提升保险代理人的工作效率,并优化客户服务体验。技术上,该助手基于开源 LLM 模型并进行微调,通过 RAG 架仅供交流学习使用化客户服务体验。技术上,该助手基于开源 LLM 模型并进行微调,通过 RAG 架构集成保险知识库来提升问答的准确性和专业性。产品可以以侧边栏的形式嵌仅供交流学习使用构集成保险知识库来提升问答的准确性和专业性。产品可以以侧边栏的形式嵌入企业微信等通讯软件,为代理人在客户沟通中提供边聊边查的实时辅助,有仅供交流学习使用入企业微信等通讯软件,为代理人在客户沟通中提供边聊边查的实时辅助,有效整合“人工 大模型”的合作模式,降低合规风险,实现降本增效的商业价值。仅供交流学习使用效整合“人工 大模型”的合作模式,降低合规风险,实现降本增效的商业价值。随着保险市场竞争的加剧和互联网保险平台的兴起,传统保险企业面临提升客仅供交流学习使用随着保险市场竞争的加剧和互联网保险平台的兴起,传统保险企业面临提升客仅供交流学习使用仅供交流学习使用需求分析仅供交流学习使用需求分析仅供交流学习使用仅供交流学习使用仅供交流学习使用保险 AI 大模型助手集成了先进的 LLM 大模型技术,使用公开的保险数据进行仅供交流学习使用保险 AI 大模型助手集成了先进的 LLM 大模型技术,使用公开的保险数据进行特定的微调训练,以增强对保险产品、条款和市场动态的理解。此外,通过仅供交流学习使用特定的微调训练,以增强对保险产品、条款和市场动态的理解。此外,通过LLM RAG 架构嵌入外部保险知识库数据,助手能够提供高度定制化的问答服务。仅供交流学习使用LLM RAG 架构嵌入外部保险知识库数据,助手能够提供高度定制化的问答服务。助手还扩展了多项功能,包括常见保险知识问答、保险产品信息检索、保险数仅供交流学习使用助手还扩展了多项功能,包括常见保险知识问答、保险产品信息检索、保险数据计算器、沟通记录总结和待办事项生成,通过指令优化确保精确执行特定保仅供交流学习使用据计算器、沟通记录总结和待办事项生成,通过指令优化确保精确执行特定保1.基于公开保险知识数据微调的保险大模型:仅供交流学习使用1.基于公开保险知识数据微调的保险大模型:特别针对保险行业需求进行定制仅供交流学习使用特别针对保险行业需求进行定制化训练,优化对保险产品和条款的理解;仅供交流学习使用化训练,优化对保险产品和条款的理解;2.基于 ES Milvus 的 LLM RAG 混合检索架构:仅供交流学习使用2.基于 ES Milvus 的 LLM RAG 混合检索架构:成模型的应答灵活性,有效提升信息检索的准确性和响应速度;仅供交流学习使用成模型的应答灵活性,有效提升信息检索的准确性和响应速度;3.保险场景特定任务指令优化:仅供交流学习使用3.保险场景特定任务指令优化:了指令优化,提高操作的精准性和效率;仅供交流学习使用了指令优化,提高操作的精准性和效率;实施效果仅供交流学习使用实施效果保险 AI 大模型助手已成功嵌入超过百款保险产品,并支持自动解读保险条款,仅供交流学习使用保险 AI 大模型助手已成功嵌入超过百款保险产品,并支持自动解读保险条款,智能应用生态服务行业赋能0320332024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0320332024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集综合来看,保险 AI 大模型助手的应用不仅提升了工作效率、降低了培训和管理成本,还帮助保险公司更好地满足客户需求,提升了整体运营效率和服务质量。应用落地情况保险 AI 大模型助手在保险代理人与客户沟通中的广泛应用,提供实时问答支持和资料查询功能,简化了代理人查询产品资料的流程,减少了沟通次数,提升了客户服务效率和质量,增强了客户体验和满意度。这些创新技术和功能的实施,显著提升了代理人的工作效率和专业能力,有效支持了保险企业在竞争激烈的市场中保持竞争优势。附图说明:图 1:保险 AI 大模型助手-典型功能保险 AI 大模型助手的推广和应用带来了显著的经济和社会效益。在经济效益上:降低了操作成本,提高了工作效率,增加了潜在收益;社会效益上:提高了客户满意度和服务质量,增强了客户忠诚度和信任感;商业模式采用私有化部署的产品收费机制,为保险公司提供定制化服务,确保了模型的广泛应用和市场竞争力。在应用推广方面,已在互联网保险经纪公司实施,支持数百名保险代理人的日常工作,推动了智能保险服务的标准化和普及。这些成就展示了 AI 技术在保险行业的实用价值,也为其他行业的应用提供了借鉴。效益分析仅供交流学习使用保险 AI 大模型助手在保险代理人与客户沟通中的广泛应用,提供实时问答支持和资料查询功能,简化了代仅供交流学习使用保险 AI 大模型助手在保险代理人与客户沟通中的广泛应用,提供实时问答支持和资料查询功能,简化了代理人查询产品资料的流程,减少了沟通次数,提升了客户服务效率和质量,增强了客户体验和满意度。这些仅供交流学习使用理人查询产品资料的流程,减少了沟通次数,提升了客户服务效率和质量,增强了客户体验和满意度。这些创新技术和功能的实施,显著提升了代理人的工作效率和专业能力,有效支持了保险企业在竞争激烈的市场仅供交流学习使用创新技术和功能的实施,显著提升了代理人的工作效率和专业能力,有效支持了保险企业在竞争激烈的市场仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用商业模式采用私有化部署的产品收费机制,为保险公司提供定制化服务,确保仅供交流学习使用商业模式采用私有化部署的产品收费机制,为保险公司提供定制化服务,确保了模型的广泛应用和市场竞争力。在应用推广方面,已在互联网保险经纪公司仅供交流学习使用了模型的广泛应用和市场竞争力。在应用推广方面,已在互联网保险经纪公司实施,支持数百名保险代理人的日常工作,推动了智能保险服务的标准化和普仅供交流学习使用实施,支持数百名保险代理人的日常工作,推动了智能保险服务的标准化和普及。这些成就展示了 AI 技术在保险行业的实用价值,也为其他行业的应用提仅供交流学习使用及。这些成就展示了 AI 技术在保险行业的实用价值,也为其他行业的应用提智能应用生态服务行业赋能0340352024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0340352024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集车辆智能运维助手上海优咔网络科技有限公司(简称:优咔科技)是车联网领域的高科技企业,是行业领先的车联网服务提供商和方案解决商。公司以车联网连接管理产品和服务为基座,与世界主流通信运营商紧密合作,依托具有自主知识产权的车联网业务管理和运营平台,及全方位端到端的领先技术能力,在全球范围内为车企提供通信服务、车联网连接管理服务、车联网生态运营服务和车联网专业运维服务,帮助车企用户使用到优质、稳定、安全、合规的网联服务;同时,公司在现有平台服务能力的基础上,自主开发自动驾驶数据闭环工具链产品,帮助车企构建自主可控的自动驾驶数据处理、算法训练及仿真平台,满足车企自动驾驶/高阶辅助驾驶产品开发工作中的数据闭环需求。随着人工智能、物联网、大数据分析等技术的飞速发展,车辆智能化水平不断提高,汽车作为大众消费品,使用门槛不断降低,车辆运维对安全提升、用户体验优化以及成本控制等方面正日益凸显其重要性。当前车辆运维主要包括定期保养、故障诊断与维修、预防性维护、远程监控与管理、数字化记录与追踪、用户培训与指导以及应急救援服务等,结合了传统手段与现代技术,部分车企和高端车型开始采用智能运维系统,集成人工智能、大数据分析等功能,但主要仍为人工智能配合人工提供车辆运维相关服务。利用生成式对话预训练大模型,进行行业专业性微调,并结合检索增强生成(RAG)等技术,大幅提升车企的车辆运维综合能力,车辆运维将全面从传统的“坏了再修”模式转向以预防为主、结合数字化管理的综合服务体系,强调效率、成本控制和用户体验的全面提升。在汽车市场竞争激烈的环境下,提供高效、便捷的智能运维服务成为品牌差异化的重要手段。部分相关企业如华为、特斯拉等通过推出先进智驾系统,提升了市场竞争力,促使整个行业加大对智能运维的投入。车辆智能运维助手作为汽车数字化运维的重要组成部分,帮助车企实现运维流程的数字化、智能化。以日常车辆使用方面的智能客服为例,智能运维助手可更及时并高效地提供生成式对话内容,避免传统人工客服与系统规则应答等方面的劣势,在泛化能力方面还可有明显的优势。在预防性维护方面,智能运维助手通过数据分析提前发现潜在问题,减少车辆突发故障导致的影响时间,也可避免更昂贵的大修,同时也优化了运维资源分配,提高了整体运营效率。车辆智能运维助手集成了日常车辆运维所涉及的各项服务内容,旨在提供全面、高效、智能的车辆维护和管理解决方案,系统架构如下图所示:可提供的服务主要包含以下功能:实时监控与诊断:通过车载传感器和物联网技术,实时收集车辆的运行数据,如发动机状态、油耗、胎压、电池电量、冷却液温度等,进行实时监控和健康状态评估;故障预警:利用大数据分析和机器学习算法,分析车辆历史数据,识别异常模式,预测潜在故障,在故障发生前发出预警,减少意外停机;智能调度与维修规划:根据车辆状态和故障预警,自动安排维修计划,优化维修资源分配,包括维修人员调度、配件准备等,最小化维修等待时间;驾驶行为分析:分析驾驶习惯,如急加速、急刹车频率,为驾驶员提供个性化驾驶建议,既提升安全又可降低油耗和维护成本;智能问答与指导:集成自然语言处理技术,提供语音或文本交互的智能客服,解答驾驶员关于车辆使用、维护的问题,提供应急处理指导;合规性管理:确保车辆符合当地最新的安全、排放等法规要求,自动提醒并安排必要的检查和认证更新。业务逻辑如下图所示:上海优咔网络科技有限公司概 述需求分析案例介绍06仅供交流学习使用仅供交流学习使用服务提供商和方案解决商。公司以车联网连接管理产品和服务为基座,与世界主流通信运营商紧密仅供交流学习使用服务提供商和方案解决商。公司以车联网连接管理产品和服务为基座,与世界主流通信运营商紧密合作,依托具有自主知识产权的车联网业务管理和运营平台,及全方位端到端的领先技术能力,在仅供交流学习使用合作,依托具有自主知识产权的车联网业务管理和运营平台,及全方位端到端的领先技术能力,在全球范围内为车企提供通信服务、车联网连接管理服务、车联网生态运营服务和车联网专业运维服仅供交流学习使用全球范围内为车企提供通信服务、车联网连接管理服务、车联网生态运营服务和车联网专业运维服务,帮助车企用户使用到优质、稳定、安全、合规的网联服务;同时,公司在现有平台服务能力的仅供交流学习使用务,帮助车企用户使用到优质、稳定、安全、合规的网联服务;同时,公司在现有平台服务能力的基础上,自主开发自动驾驶数据闭环工具链产品,帮助车企构建自主可控的自动驾驶数据处理、算仅供交流学习使用基础上,自主开发自动驾驶数据闭环工具链产品,帮助车企构建自主可控的自动驾驶数据处理、算法训练及仿真平台,满足车企自动驾驶/高阶辅助驾驶产品开发工作中的数据闭环需求。仅供交流学习使用法训练及仿真平台,满足车企自动驾驶/高阶辅助驾驶产品开发工作中的数据闭环需求。随着人工智能、物联网、大数据分析等技术的飞速发展,车辆智能化水平不断仅供交流学习使用随着人工智能、物联网、大数据分析等技术的飞速发展,车辆智能化水平不断提高,汽车作为大众消费品,使用门槛不断降低,车辆运维对安全提升、用户仅供交流学习使用提高,汽车作为大众消费品,使用门槛不断降低,车辆运维对安全提升、用户体验优化以及成本控制等方面正日益凸显其重要性。当前车辆运维主要包括定仅供交流学习使用体验优化以及成本控制等方面正日益凸显其重要性。当前车辆运维主要包括定期保养、故障诊断与维修、预防性维护、远程监控与管理、数字化记录与追踪、仅供交流学习使用期保养、故障诊断与维修、预防性维护、远程监控与管理、数字化记录与追踪、用户培训与指导以及应急救援服务等,结合了传统手段与现代技术,部分车企仅供交流学习使用用户培训与指导以及应急救援服务等,结合了传统手段与现代技术,部分车企和高端车型开始采用智能运维系统,集成人工智能、大数据分析等功能,但主仅供交流学习使用和高端车型开始采用智能运维系统,集成人工智能、大数据分析等功能,但主要仍为人工智能配合人工提供车辆运维相关服务。利用生成式对话预训练大模仅供交流学习使用要仍为人工智能配合人工提供车辆运维相关服务。利用生成式对话预训练大模型,进行行业专业性微调,并结合检索增强生成(RAG)等技术,大幅提升车企仅供交流学习使用型,进行行业专业性微调,并结合检索增强生成(RAG)等技术,大幅提升车企的车辆运维综合能力,车辆运维将全面从传统的“坏了再修”模式转向以预防仅供交流学习使用的车辆运维综合能力,车辆运维将全面从传统的“坏了再修”模式转向以预防为主、结合数字化管理的综合服务体系,强调效率、成本控制和用户体验的全仅供交流学习使用为主、结合数字化管理的综合服务体系,强调效率、成本控制和用户体验的全仅供交流学习使用仅供交流学习使用需求分析仅供交流学习使用需求分析仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用可提供的服务主要包含以下功能:仅供交流学习使用可提供的服务主要包含以下功能:实时监控与诊断:仅供交流学习使用实时监控与诊断:通过车载传感器和物联网技术,实时收集车辆的运行数据,如发动机状态、油耗、胎压、仅供交流学习使用通过车载传感器和物联网技术,实时收集车辆的运行数据,如发动机状态、油耗、胎压、电池电量、冷却液温度等,进行实时监控和健康状态评估;仅供交流学习使用电池电量、冷却液温度等,进行实时监控和健康状态评估;故障预警:仅供交流学习使用故障预警:利用大数据分析和机器学习算法,分析车辆历史数据,识别异常模式,预测潜在故障,在故障仅供交流学习使用利用大数据分析和机器学习算法,分析车辆历史数据,识别异常模式,预测潜在故障,在故障发生前发出预警,减少意外停机;仅供交流学习使用发生前发出预警,减少意外停机;仅供交流学习使用 智能调度与维修规划:仅供交流学习使用智能调度与维修规划:调度、配件准备等,最小化维修等待时间;仅供交流学习使用调度、配件准备等,最小化维修等待时间;仅供交流学习使用 驾驶行为分析:仅供交流学习使用驾驶行为分析:降低油耗和维护成本;仅供交流学习使用降低油耗和维护成本;仅供交流学习使用智能应用生态服务行业赋能0360372024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0360372024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集技术创新点主要如下:自然语言交互优化:利用生成式对话预训练大模型,进行行业专业性微调,并结合检索增强生成(RAG)等技术,车辆智能运维助手能以更加流畅、贴近人类的对话方式与驾驶员或维修人员交流,提供更加个性化的指导、答疑和维护建议,增强用户体验;知识图谱与专家系统:构建基于大模型的知识图谱,整合车辆维护手册、维修案例、零部件信息等,形成一个丰富的知识库。运维助手可实时查询和学习这些知识,为用户提供专业级的维护解决方案,甚至在没有明确历史案例的情况下,通过推理生成新的维修策略。通过车辆智能运维助手的使用,大幅提升车企的车辆运维综合能力,全面实现车辆运维数字化转型。车辆智能运维助手将在车企作为主要的落地点,主要服务对象及使用者为车主及车企相关运维人员。项目的基本盈利模式主要为销售车辆智能运维产品License,同时提供技术服务、信息系统服务和平台搭建服务。车辆智能运维产品的主要客户是车企。以每年新增 150 万用户数为基础,预估产品渗透率为 20%,即可售出约 30 万套产品License 及各项服务。社会效益方面,项目在就业、知识产权、服务创新等领域具有显著的效益,具体包括:本项目直接投入研发人员 15 人,平台投入生产后,还需要 10 多人的运维和运营团队,带动的直接就业可达 30 人。预计可获得 5份软件著作权,2 份发明专利。目前,基于生成式对话预训练大模型的知识库问答已在部分客户进行试用。效益分析仅供交流学习使用仅供交流学习使用利用生成式对话预训练大模型,进行行业专业性微调,并结合检索增强生成(RAG)仅供交流学习使用利用生成式对话预训练大模型,进行行业专业性微调,并结合检索增强生成(RAG)等技术,车辆智能运维助手能以更加流畅、贴近人类的对话方式与驾驶员或维修人员交流,提供更加个性仅供交流学习使用等技术,车辆智能运维助手能以更加流畅、贴近人类的对话方式与驾驶员或维修人员交流,提供更加个性化的指导、答疑和维护建议,增强用户体验;仅供交流学习使用化的指导、答疑和维护建议,增强用户体验;知识图谱与专家系统:仅供交流学习使用知识图谱与专家系统:构建基于大模型的知识图谱,整合车辆维护手册、维修案例、零部件信息等,形成仅供交流学习使用构建基于大模型的知识图谱,整合车辆维护手册、维修案例、零部件信息等,形成一个丰富的知识库。运维助手可实时查询和学习这些知识,为用户提供专业级的维护解决方案,甚至在没仅供交流学习使用一个丰富的知识库。运维助手可实时查询和学习这些知识,为用户提供专业级的维护解决方案,甚至在没有明确历史案例的情况下,通过推理生成新的维修策略。仅供交流学习使用有明确历史案例的情况下,通过推理生成新的维修策略。通过车辆智能运维助手的使用,大幅提升车企的车辆运维综合能力,全面实现车辆运维数字化转型。车辆仅供交流学习使用通过车辆智能运维助手的使用,大幅提升车企的车辆运维综合能力,全面实现车辆运维数字化转型。车辆智能运维助手将在车企作为主要的落地点,主要服务对象及使用者为车主及车企相关运维人员。仅供交流学习使用智能运维助手将在车企作为主要的落地点,主要服务对象及使用者为车主及车企相关运维人员。仅供交流学习使用仅供交流学习使用仅供交流学习使用具有显著的效益,具体包括:本项目直接投入研发人员 15 人,平台投入生产后,仅供交流学习使用具有显著的效益,具体包括:本项目直接投入研发人员 15 人,平台投入生产后,还需要 10 多人的运维和运营团队,带动的直接就业可达 30 人。预计可获得 5仅供交流学习使用还需要 10 多人的运维和运营团队,带动的直接就业可达 30 人。预计可获得 5份软件著作权,2 份发明专利。目前,基于生成式对话预训练大模型的知识库问仅供交流学习使用份软件著作权,2 份发明专利。目前,基于生成式对话预训练大模型的知识库问智能应用生态服务行业赋能0380392024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0380392024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集案例 1:大模型支持的 ChatBI 生成式企业私域数据分析基于奇智孔明工业大模型打造的 ChatBI,是一款生成式企业私域数据分析应用。通过简单对话即可理解管理者真实意图,并实时生成生产数据报表、快速构建数据看板,提高生产运营决策效率,提升生产效率。创新奇智服务的某新材料企业工厂在实现了数字化和信息化后,客户面对海量的生产数据,对数据洞察的需创新奇智工业大模型赋能制造业创新奇智成立于 2018 年 2 月,以“人工智能赋能商业价值”为使命,是中国快速发展的企业级 AI解决方案供应商和领先的“AI 制造”解决方案供应商。创新奇智专注于“AI 制造”,聚焦打造“工业软件、数智软件、工业物流、智能装备、工业可持续”五大业务主题,赋能钢铁冶金、面板半导体、3C 高科技、汽车装备、能源电力、工程建筑、食品饮料&新材料、智造实训等细分领域的行业客户。公司自研面向行业应用的“MMOC 人工智能技术平台”和“AInnoGC 工业大模型技术平台”,累计申报专利 1300 多件,获“国家专精特新小巨人企业”认定。创新奇智面向工业领域研发“奇智孔明 AInnoGC 工业大模型”,旨在通过强化在底层算法、模型闭环、平台工程、场景落地等方面的能力,打造自主可控、行业领先的工业大模型技术和产品体系,为更多工业场景提供强大的技术支撑。大模型参数量级在 750 亿以上,具备工业知识问答、数据分析、代码生成、任务编排、海量知识管理、复杂逻辑推理、长流程任务编排、Agent 智能体以及更多工业模态的生成能力。AInnoGC 平台由工业大模型、大模型服务引擎和 ChatX 系列生成式应用构成,具体包括 ChatBI 生成式企业私域数据分析/ChatDoc 生成式企业私域知识问答/ChatRobot 生成式工业机器人调度/ChatCAD 生成式辅助工业设计/ChatVision 生成式企业私域视觉洞察等多个大模型原生应用,赋能解决方案升级创新,加速业务落地,助力新型工业化。在利用工业小模型时,企业常常面临数据质量低、标注成本高、模型泛化能力有限、技术实施难度高等问题。创新奇智工业大模型通过强大的数据处理能力、自我学习和优化特性,以及高度的灵活性和可扩展性,可以有效地帮助企业解决在利用工业小模型时面临的一系列难题和挑战。我们结合多年企业智能化转型服务经验和积累的工业大数据,在对开源免费大模型进行知识蒸馏的基础上,设计了适合工业场景的大模型神经网络结构,然后通过预训练、指令微调、人类反馈强化学习,获得工业大模型 AInno-75B,具有行业化、轻量化、多模态的特点,是一款更懂制造业的行业大模型。为让大模型更容易落地,通过大模型服务引擎支撑生成式 AI 应用,面向诸如工业机器人、企业私域数据分析、企业私域知识库等制造业应用领域,打造 ChatX 工业大模型系列产品。创新奇智科技集团股份有限公司概 述需求分析案例介绍图 1 奇智孔明工业大模型图 207仅供交流学习使用仅供交流学习使用解决方案供应商和领先的“AI 制造”解决方案供应商。创新奇智专注于“AI 制造”,聚焦打造“工仅供交流学习使用解决方案供应商和领先的“AI 制造”解决方案供应商。创新奇智专注于“AI 制造”,聚焦打造“工业软件、数智软件、工业物流、智能装备、工业可持续”五大业务主题,赋能钢铁冶金、面板半导体、仅供交流学习使用业软件、数智软件、工业物流、智能装备、工业可持续”五大业务主题,赋能钢铁冶金、面板半导体、3C 高科技、汽车装备、能源电力、工程建筑、食品饮料&新材料、智造实训等细分领域的行业客仅供交流学习使用3C 高科技、汽车装备、能源电力、工程建筑、食品饮料&新材料、智造实训等细分领域的行业客户。公司自研面向行业应用的“MMOC 人工智能技术平台”和“AInnoGC 工业大模型技术平台”,仅供交流学习使用户。公司自研面向行业应用的“MMOC 人工智能技术平台”和“AInnoGC 工业大模型技术平台”,创新奇智面向工业领域研发“奇智孔明 AInnoGC 工业大模型”,旨在通过强仅供交流学习使用创新奇智面向工业领域研发“奇智孔明 AInnoGC 工业大模型”,旨在通过强化在底层算法、模型闭环、平台工程、场景落地等方面的能力,打造自主可仅供交流学习使用化在底层算法、模型闭环、平台工程、场景落地等方面的能力,打造自主可控、行业领先的工业大模型技术和产品体系,为更多工业场景提供强大的技术仅供交流学习使用控、行业领先的工业大模型技术和产品体系,为更多工业场景提供强大的技术支撑。大模型参数量级在 750 亿以上,具备工业知识问答、数据分析、代码仅供交流学习使用支撑。大模型参数量级在 750 亿以上,具备工业知识问答、数据分析、代码生成、任务编排、海量知识管理、复杂逻辑推理、长流程任务编排、Agent 智仅供交流学习使用生成、任务编排、海量知识管理、复杂逻辑推理、长流程任务编排、Agent 智能体以及更多工业模态的生成能力。AInnoGC 平台由工业大模型、大模型服务仅供交流学习使用能体以及更多工业模态的生成能力。AInnoGC 平台由工业大模型、大模型服务引擎和 ChatX 系列生成式应用构成,具体包括 ChatBI 生成式企业私域数据分仅供交流学习使用引擎和 ChatX 系列生成式应用构成,具体包括 ChatBI 生成式企业私域数据分析/ChatDoc 生成式企业私域知识问答/ChatRobot 生成式工业机器人调度/仅供交流学习使用析/ChatDoc 生成式企业私域知识问答/ChatRobot 生成式工业机器人调度/ChatCAD 生成式辅助工业设计/ChatVision 生成式企业私域视觉洞察等多个大仅供交流学习使用ChatCAD 生成式辅助工业设计/ChatVision 生成式企业私域视觉洞察等多个大模型原生应用,赋能解决方案升级创新,加速业务落地,助力新型工业化。仅供交流学习使用模型原生应用,赋能解决方案升级创新,加速业务落地,助力新型工业化。仅供交流学习使用仅供交流学习使用需求分析仅供交流学习使用需求分析仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用案例 1:大模型支持的 ChatBI 生成式企业私域数据分析仅供交流学习使用案例 1:大模型支持的 ChatBI 生成式企业私域数据分析基于奇智孔明工业大模型打造的 ChatBI,是一款生成式企业私域数据分析应用。通过简单对话即可理解管仅供交流学习使用基于奇智孔明工业大模型打造的 ChatBI,是一款生成式企业私域数据分析应用。通过简单对话即可理解管理者真实意图,并实时生成生产数据报表、快速构建数据看板,提高生产运营决策效率,提升生产效率。仅供交流学习使用理者真实意图,并实时生成生产数据报表、快速构建数据看板,提高生产运营决策效率,提升生产效率。仅供交流学习使用仅供交流学习使用仅供交流学习使用图 1 奇智孔明工业大模型仅供交流学习使用图 1 奇智孔明工业大模型智能应用生态服务行业赋能0400412024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0400412024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集求更加迫切。传统的生产场景中,需要专人制造上百张动态报表来分析生产情况,但仍然很难涵盖管理者的全部需求。创新奇智将基于 AInnoGC 工业大模型的 ChatBI 产品结合工业软件为客户打造智能生产制造数据分析方案,可以帮助用户实时获得海量生产数据的深度洞察。比如客户希望了解产线设备的开机率变化,只需通过对话来询问:“2023 年 10 月份 101 产线 103 炉位的开机率”,ChatBI 就可以自动查询并以图表的方式反馈 10 月份该炉位每天的开机率及变化趋势,在这个基础上可以继续追问,实现多轮对话。当 ChatBI 生成了各种各样客户想要的报表后,只需要通过简单的点击、拖拽的操作,就快速制作出车间的生成数据看板,为企业的各级管理人员提供深度数据分析和洞察。ChatBI 支持多种格式的数据源、支持SQL 代码的展示、利用主动召回技术给出更专业和精确的答案、以及高级别的数据安全保障,让用户操作起来更加方便和安全。案例 2:ChatDoc 和 ChatRobot 支持的成都机器人创新中心成都机器人创新中心是创新奇智与成都市成华区政府联合打造的机器人产业公共服务平台。依托“奇智孔明AInnoGC工业大模型”的复杂自然语言处理、高级数据分析和深度强化学习等先进AIGC技术和ChatDoc产品,我们成功开发并落地了一个能实时解答、深度理解且知识覆盖广泛的互动学习问答平台,及一个自动化生成个性化且内容丰富的机器人培训课件系统。这些工具不仅极大提升了教学质量和效率,还能根据学生反馈实时调整教材内容,促进个性化学习和技能成长,有效促进了当地地区机器人行业的人才培养。同时我们也在积极落地 ChatRobot 在中心的应用,辅助学生生成 PLC 控制程序,培训学生机器人任务编排能力。图 3经济效益:大模型支持的制造企业私域AIGC应用有助于客户提高生产力和效率。长期来看,模型的自我学习能力可以显著减少人工更新和维护的需要,从而降低了总体运营成本,提供了更高的成本效益。产业带动效应:创新奇智工业大模型助力解决工业场景多、数据少、智能化覆盖程度低等技术难题,实现从通用 AIGC 到制造行业 AIGC 的迁移,促进最新 AIGC 技术和制造业数字化、智能化升级的结合,为企业带来新的经济增长点的同时,对我国现有的制造业产业数字化、智能化转型升级和数字经济高质量发展带来助推作用。推动制造业商业模式创新:工业大模型的出现使得一些全新的商业模式成为可能。例如,基于 AI 工业大模型的数据分析和预测能力,企业可以开展数据驱动的商业模式。工业机器人与工业大模型的结合,工业机器人为“载体”,工业大模型为“灵魂“,预示着工业生产底层逻辑即将迎来一场深刻的变革。这种结合不仅将提升工业生产的效率和质量,还将推动工业智能化、自动化的进程,为工业发展带来巨大的前景。应用推广:创新奇智通过技术组件化的策略,即将技术解决方案分解为可重复使用的组件,以及进一步的平台化和产品化,可以减少项目交付时的定制化工作量,提高效率。未来,以工业大模型技术底座为支撑,公司将推出更多 ChatX 系列产品,加强在多模态技术融合,实现文本、数据、图像、视频、CAD和自动化技术的综合应用,以提升系统的整体性能和应用的广泛性。效益分析仅供交流学习使用当 ChatBI 生成了各种各样客户想要的报表后,只需要通过简单的点击、拖拽的操作,就快速制作出车间仅供交流学习使用当 ChatBI 生成了各种各样客户想要的报表后,只需要通过简单的点击、拖拽的操作,就快速制作出车间的生成数据看板,为企业的各级管理人员提供深度数据分析和洞察。ChatBI 支持多种格式的数据源、支持仅供交流学习使用的生成数据看板,为企业的各级管理人员提供深度数据分析和洞察。ChatBI 支持多种格式的数据源、支持SQL 代码的展示、利用主动召回技术给出更专业和精确的答案、以及高级别的数据安全保障,让用户操作起仅供交流学习使用SQL 代码的展示、利用主动召回技术给出更专业和精确的答案、以及高级别的数据安全保障,让用户操作起成都机器人创新中心是创新奇智与成都市成华区政府联合打造的机器人产业公共服务平台。依托“奇智孔明仅供交流学习使用成都机器人创新中心是创新奇智与成都市成华区政府联合打造的机器人产业公共服务平台。依托“奇智孔明AInnoGC工业大模型”的复杂自然语言处理、高级数据分析和深度强化学习等先进AIGC技术和ChatDoc产品,仅供交流学习使用AInnoGC工业大模型”的复杂自然语言处理、高级数据分析和深度强化学习等先进AIGC技术和ChatDoc产品,我们成功开发并落地了一个能实时解答、深度理解且知识覆盖广泛的互动学习问答平台,及一个自动化生成仅供交流学习使用我们成功开发并落地了一个能实时解答、深度理解且知识覆盖广泛的互动学习问答平台,及一个自动化生成个性化且内容丰富的机器人培训课件系统。这些工具不仅极大提升了教学质量和效率,还能根据学生反馈实仅供交流学习使用个性化且内容丰富的机器人培训课件系统。这些工具不仅极大提升了教学质量和效率,还能根据学生反馈实时调整教材内容,促进个性化学习和技能成长,有效促进了当地地区机器人行业的人才培养。同时我们也在仅供交流学习使用时调整教材内容,促进个性化学习和技能成长,有效促进了当地地区机器人行业的人才培养。同时我们也在积极落地 ChatRobot 在中心的应用,辅助学生生成 PLC 控制程序,培训学生机器人任务编排能力。仅供交流学习使用积极落地 ChatRobot 在中心的应用,辅助学生生成 PLC 控制程序,培训学生机器人任务编排能力。仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用创新奇智工业大模型助力解决工业场景多、数据少、智能化覆盖程度低等技术仅供交流学习使用创新奇智工业大模型助力解决工业场景多、数据少、智能化覆盖程度低等技术难题,实现从通用 AIGC 到制造行业 AIGC 的迁移,促进最新 AIGC 技术和制造仅供交流学习使用难题,实现从通用 AIGC 到制造行业 AIGC 的迁移,促进最新 AIGC 技术和制造业数字化、智能化升级的结合,为企业带来新的经济增长点的同时,对我国现仅供交流学习使用业数字化、智能化升级的结合,为企业带来新的经济增长点的同时,对我国现有的制造业产业数字化、智能化转型升级和数字经济高质量发展带来助推作用。仅供交流学习使用有的制造业产业数字化、智能化转型升级和数字经济高质量发展带来助推作用。工业大模型的出现使得一些全新的商业模式成为可能。例如,基于 AI 工业大模仅供交流学习使用工业大模型的出现使得一些全新的商业模式成为可能。例如,基于 AI 工业大模型的数据分析和预测能力,企业可以开展数据驱动的商业模式。工业机器人与仅供交流学习使用型的数据分析和预测能力,企业可以开展数据驱动的商业模式。工业机器人与仅供交流学习使用工业大模型的结合,工业机器人为“载体”,工业大模型为“灵魂“,预示着仅供交流学习使用工业大模型的结合,工业机器人为“载体”,工业大模型为“灵魂“,预示着工业生产底层逻辑即将迎来一场深刻的变革。这种结合不仅将提升工业生产的仅供交流学习使用工业生产底层逻辑即将迎来一场深刻的变革。这种结合不仅将提升工业生产的效率和质量,还将推动工业智能化、自动化的进程,为工业发展带来巨大的前景。仅供交流学习使用效率和质量,还将推动工业智能化、自动化的进程,为工业发展带来巨大的前景。应用推广:仅供交流学习使用应用推广:创新奇智通过技术组件化的策略,即将技术解决方案分解为可重复使用的组件,仅供交流学习使用创新奇智通过技术组件化的策略,即将技术解决方案分解为可重复使用的组件,以及进一步的平台化和产品化,可以减少项目交付时的定制化工作量,提高效率。仅供交流学习使用以及进一步的平台化和产品化,可以减少项目交付时的定制化工作量,提高效率。未来,以工业大模型技术底座为支撑,公司将推出更多 ChatX 系列产品,加强仅供交流学习使用未来,以工业大模型技术底座为支撑,公司将推出更多 ChatX 系列产品,加强智能应用生态服务行业赋能0420432024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0420432024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集达观数据智能知识库系统达观数据 2015 年底成立,专注于智能知识管理软件系统的开发,广泛应用于各类知识管理业务的智能化、人性化,大幅度提高企业人效与智能化水平。其自主研发的智能知识管理系(KMS)、智能文本处理技术(IDP)、智能写作、图像文字识别技术(OCR)、机器人流程自动化(RPA)、智能搜索推荐等产品,成功赋能百业。是行业首家国家级专精特新“小巨人”企业,也曾荣获中国人工智能领域最高奖“吴文俊人工智能奖”。达观总部位于上海张江科学城,在北京、深圳、成都、苏州、郑州、南宁等全国各地成立子公司及办事处,服务团队遍及全国。团队由来自腾讯、盛大、百度、阿里等知名企业高管和技术专家组成,申请有 230 余项发明专利,成功通过国际权威机构的软件成熟度 CMMI5 最高等级认证,出版发表多本人工智能领域著作,以及数十篇国际顶级期刊会议论文。达观数据助力某公司建设知识库,面向某公司全集团各业务部门及用户使用,融合对内知识库与对外知识库(机器人)的后台统一管理,实现机器人和知识库的后台知识智能化采编的统一管理、统一采编、统一审批、统一发布、统一维护。建立内部人员多样化知识的共享协作和分享交流平台,充分利用大模型技术提升系统使用效率,同时系统埋点数据应用统计功能,为建立评价指标提供基础数据,为数智运营提供基础,最终实现平台共制,平台共建,知识共享。一、相关背景该公司对内对外的知识目前存在数据不串联、智能化较弱、灵活性不足等三大痛点:1、各知识库前端系统未统一使用不便,知识同步难;2、知识采编统一用人工、周期长、成本高;3、知识形态单一,无法多部门推广,系统间独立交互,业务受限,无法掌握各运营数据,无法响应业务发展需要;一、项目主要能力1.构建具备知识在线/离线自助服务的知识库,为有网络和没网络的用户提供服务。2.融合对内知识库与对外知识库(机器人)的后台管理,实现机器人和知识库的后台知识采编的统一管理、统一采编、统一审批、统一发布、统一维护。支持众包采编,各部门的知识采编人员或者员工都可以进行知识采编。经过知识发布流程,形成正式的知识内容,供用户查询使用。3.构建全新业务交互模式的知识库,实现知识库对接该公司各业务系统,充分发挥知识对业务的支撑作用。4.构建具备知识交流分享的知识库,建立内部人员共享协作和分享交流的平台,业务专家团队在线解答疑点难点问题。系统埋点数据应用统计功能,为建立评价指标提供基础数据,包括用户满意率、系统访问量、知识热度、账号活跃度等。5.重新规划功能模块,建立各部门知识树,建立分权分级管理功能。在服务全域知识体系中,纳入服务标准、营销产品、运行支撑等全服务链条知识点。关键是对知识实行分权限分级别管理,外部客户、一线服务人员、服务支持人员可分别查阅产品业务的基础信息、服务指引和特殊处置指引,满足不同客户的知识需求。6.知识库可以对接各业务系统,自动获取知识,对接业务系统业务端发起知识新建或更新需求,系统提醒审批流的业务人员尽早完成审核、批准,缩短流转时间,确保内容准确性和时效性。加快知识入库快速流转功能,实现知识主动推荐,知识找人。充分发挥知识库系统作用,将知识转换成价值。达观数据有限公司概 述需求分析案例介绍二、用户需求为此要搭建一个智能知识库系统,面向该公司全集团各业务部门及用户使用,融合对内知识库与对外知识库(机器人)的后台统一管理,实现机器人和知识库的后台知识智能化采编的统一管理、统一采编、统一审批、统一发布、统一维护。08仅供交流学习使用仅供交流学习使用智能化、人性化,大幅度提高企业人效与智能化水平。其自主研发的智能知识管理系(KMS)、智仅供交流学习使用智能化、人性化,大幅度提高企业人效与智能化水平。其自主研发的智能知识管理系(KMS)、智能文本处理技术(IDP)、智能写作、图像文字识别技术(OCR)、机器人流程自动化(RPA)、智仅供交流学习使用能文本处理技术(IDP)、智能写作、图像文字识别技术(OCR)、机器人流程自动化(RPA)、智能搜索推荐等产品,成功赋能百业。是行业首家国家级专精特新“小巨人”企业,也曾荣获中国人仅供交流学习使用能搜索推荐等产品,成功赋能百业。是行业首家国家级专精特新“小巨人”企业,也曾荣获中国人达观总部位于上海张江科学城,在北京、深圳、成都、苏州、郑州、南宁等全国各地成立子公司及仅供交流学习使用达观总部位于上海张江科学城,在北京、深圳、成都、苏州、郑州、南宁等全国各地成立子公司及办事处,服务团队遍及全国。团队由来自腾讯、盛大、百度、阿里等知名企业高管和技术专家组成,仅供交流学习使用办事处,服务团队遍及全国。团队由来自腾讯、盛大、百度、阿里等知名企业高管和技术专家组成,申请有 230 余项发明专利,成功通过国际权威机构的软件成熟度 CMMI5 最高等级认证,出版发表仅供交流学习使用申请有 230 余项发明专利,成功通过国际权威机构的软件成熟度 CMMI5 最高等级认证,出版发表多本人工智能领域著作,以及数十篇国际顶级期刊会议论文。仅供交流学习使用多本人工智能领域著作,以及数十篇国际顶级期刊会议论文。达观数据助力某公司建设知识库,面向某公司全集团各业务部门及用户使用,仅供交流学习使用达观数据助力某公司建设知识库,面向某公司全集团各业务部门及用户使用,融合对内知识库与对外知识库(机器人)的后台统一管理,实现机器人和知识仅供交流学习使用融合对内知识库与对外知识库(机器人)的后台统一管理,实现机器人和知识库的后台知识智能化采编的统一管理、统一采编、统一审批、统一发布、统一仅供交流学习使用库的后台知识智能化采编的统一管理、统一采编、统一审批、统一发布、统一维护。建立内部人员多样化知识的共享协作和分享交流平台,充分利用大模型仅供交流学习使用维护。建立内部人员多样化知识的共享协作和分享交流平台,充分利用大模型技术提升系统使用效率,同时系统埋点数据应用统计功能,为建立评价指标提仅供交流学习使用技术提升系统使用效率,同时系统埋点数据应用统计功能,为建立评价指标提供基础数据,为数智运营提供基础,最终实现平台共制,平台共建,知识共享。仅供交流学习使用供基础数据,为数智运营提供基础,最终实现平台共制,平台共建,知识共享。仅供交流学习使用仅供交流学习使用需求分析仅供交流学习使用需求分析仅供交流学习使用仅供交流学习使用仅供交流学习使用1.构建具备知识在线/离线自助服务的知识库,为有网络和没网络的用户提供服务。仅供交流学习使用1.构建具备知识在线/离线自助服务的知识库,为有网络和没网络的用户提供服务。2.融合对内知识库与对外知识库(机器人)的后台管理,实现机器人和知识库的后台知识采编的统一管理、仅供交流学习使用2.融合对内知识库与对外知识库(机器人)的后台管理,实现机器人和知识库的后台知识采编的统一管理、统一采编、统一审批、统一发布、统一维护。支持众包采编,各部门的知识采编人员或者员工都可以进行知仅供交流学习使用统一采编、统一审批、统一发布、统一维护。支持众包采编,各部门的知识采编人员或者员工都可以进行知识采编。经过知识发布流程,形成正式的知识内容,供用户查询使用。仅供交流学习使用识采编。经过知识发布流程,形成正式的知识内容,供用户查询使用。3.构建全新业务交互模式的知识库,实现知识库对接该仅供交流学习使用3.构建全新业务交互模式的知识库,实现知识库对接该公司仅供交流学习使用公司各业务系统,充分发挥知识对业务的支撑作用。仅供交流学习使用各业务系统,充分发挥知识对业务的支撑作用。4.构建具备知识交流分享的知识库,建立内部人员共享协作和分享交流的平台,业务专家团队在线解答疑仅供交流学习使用4.构建具备知识交流分享的知识库,建立内部人员共享协作和分享交流的平台,业务专家团队在线解答疑点难点问题。系统埋点数据应用统计功能,为建立评价指标提供基础数据,包括用户满意率、系统访问量、仅供交流学习使用点难点问题。系统埋点数据应用统计功能,为建立评价指标提供基础数据,包括用户满意率、系统访问量、5.重新规划功能模块,建立各部门知识树,建立分权分级管理功能。在服务全域知识体系中,纳入服务标准、仅供交流学习使用5.重新规划功能模块,建立各部门知识树,建立分权分级管理功能。在服务全域知识体系中,纳入服务标准、营销产品、运行支撑等全服务链条知识点。关键是对知识实行分权限分级别管理,外部客户、一线服务人员、仅供交流学习使用营销产品、运行支撑等全服务链条知识点。关键是对知识实行分权限分级别管理,外部客户、一线服务人员、服务支持人员可分别查阅产品业务的基础信息、服务指引和特殊处置指引,满足不同客户的知识需求。仅供交流学习使用服务支持人员可分别查阅产品业务的基础信息、服务指引和特殊处置指引,满足不同客户的知识需求。6.知识库可以对接各业务系统,自动获取知识,对接业务系统业务端发起知识新建或更新需求,系统提醒仅供交流学习使用6.知识库可以对接各业务系统,自动获取知识,对接业务系统业务端发起知识新建或更新需求,系统提醒审批流的业务人员尽早完成审核、批准,缩短流转时间,确保内容准确性和时效性。加快知识入库快速流转仅供交流学习使用审批流的业务人员尽早完成审核、批准,缩短流转时间,确保内容准确性和时效性。加快知识入库快速流转功能,实现知识主动推荐,知识找人。充分发挥知识库系统作用,将知识转换成价值。仅供交流学习使用功能,实现知识主动推荐,知识找人。充分发挥知识库系统作用,将知识转换成价值。仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能0440452024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0440452024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集二、技术创新点系统应用 BERT、GPT 或其变体等先进的 NLP 大模型,以及知识图谱、业务规则,结合达观数据“曹植”大模型做多模型并联结合。可拥有从数亿到超过一百亿的参数量,使其能够有效地处理和分析大量该公司历来文本数据,用于客服问答、知识管理、制度管理、知识搜索等任务。三、实施效果该公司对内对外的知识目前存在数据不串联、智能化较弱、灵活性不足等三大痛点,业务效率讲整体可提升人员采编效率、签读效率、写作效率、审批效率、检索效率。打通现有内部系统,用户和集团共同受益,实现多系统协同互联。目前,全行业都存在知识管理无法互通,无法利用,该公司提前部署大模型时代下的知识管理系统,并且进行对内对外的知识互通融合,促进内部知识共享与交流,同时利用埋点数据提供数智运营基础。此举不仅提升了系统使用效率,还促进了平台共制、共建和知识共享,展现出强大的价值性、创新性、实用性和示范性。效益分析1.知识库权限管理:实现细粒度的访问控制和权限审批,确保知识资料的安全性。2.智能搜索与推荐:通过先进的搜索算法和用户行为分析,提供个性化的知识搜索和推荐。3.辅助写作与知识挖掘:支持辅助写作,利用 NLP 技术挖掘和归纳知识点,促进知识的创新。4.知识图谱构建:利用实体识别和关系抽取技术,构建领域知识图谱,提升知识的结构化和关联度。5.多格式文档支持与知识分类:支持多种文档格式,实现知识的自动分类和标签化。四、应用落地情况1、应用场景 内部流程优化:通过知识库的集中管理和智能搜索,提高工作效率,优化内部决策和流程。客户服务提升:结合用户智能机器人,提供快速准确的信息查询和客户支持,提升服务质量。知识共享与协作:构建知识社区,促进内部知识的共享和协作,激发创新思维。数据分析与报表:通过数据统计和分析功能,为管理层提供决策支持,实现数据驱动的业务优化。整个解决方案充分考虑了该公司的业务特性和技术需求,通过集成多种技术手段来提高知识管理的效率和质量。系统不仅提供基础的知识存储、分类和检索功能,而且还引入了智能化的功能,如自然语言处理(NLP)、智能搜索、知识挖掘和知识图谱等,以提升知识的可用性和价值。2、应用场景扩展 企业内部知识共享:通过知识库系统,员工可以轻松访问到企业内部的各种文档、手册和指导方针,提高工作效率。客户支持和服务:集成到客户服务系统中,可以提供更准确、更快速的回答,提升客户满意度。培训与教育:系统中的知识可以作为教育培训的资料,帮助新员工快速了解企业文化和业务流程。决策支持:为管理层提供基于知识的决策支持,利用数据分析和报表功能,洞察业务趋势和机会。仅供交流学习使用该公司对内对外的知识目前存在数据不串联、智能化较弱、灵活性不足等三大痛点,业务效率讲整体可提仅供交流学习使用该公司对内对外的知识目前存在数据不串联、智能化较弱、灵活性不足等三大痛点,业务效率讲整体可提升人员采编效率、签读效率、写作效率、审批效率、检索效率。打通现有内部系统,用户和集团共同受益,仅供交流学习使用升人员采编效率、签读效率、写作效率、审批效率、检索效率。打通现有内部系统,用户和集团共同受益,实现多系统协同互联。仅供交流学习使用实现多系统协同互联。仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用通过知识库的集中管理和智能搜索,提高工作效率,优化内部决策和流程。仅供交流学习使用通过知识库的集中管理和智能搜索,提高工作效率,优化内部决策和流程。智能机器人,提供快速准确的信息查询和客户支持,提升服务质量。仅供交流学习使用智能机器人,提供快速准确的信息查询和客户支持,提升服务质量。构建知识社区,促进内部知识的共享和协作,激发创新思维。仅供交流学习使用构建知识社区,促进内部知识的共享和协作,激发创新思维。通过数据统计和分析功能,为管理层提供决策支持,实现数据驱动的业务优化。仅供交流学习使用通过数据统计和分析功能,为管理层提供决策支持,实现数据驱动的业务优化。整个解决方案充分考虑了该公司的业务特性和技术需求,通过集成多种技术手段来提高知识管理的效率和仅供交流学习使用整个解决方案充分考虑了该公司的业务特性和技术需求,通过集成多种技术手段来提高知识管理的效率和质量。系统不仅提供基础的知识存储、分类和检索功能,而且还引入了智能化的功能,如自然语言处理仅供交流学习使用质量。系统不仅提供基础的知识存储、分类和检索功能,而且还引入了智能化的功能,如自然语言处理(NLP)、智能搜索、知识挖掘和知识图谱等,以提升知识的可用性和价值。仅供交流学习使用(NLP)、智能搜索、知识挖掘和知识图谱等,以提升知识的可用性和价值。2、应用场景扩展仅供交流学习使用2、应用场景扩展 仅供交流学习使用 企业内部知识共享:仅供交流学习使用企业内部知识共享:通过知识库系统,员工可以轻松访问到企业内部的各种文档、手册和指导方针,提仅供交流学习使用通过知识库系统,员工可以轻松访问到企业内部的各种文档、手册和指导方针,提高工作效率。仅供交流学习使用高工作效率。仅供交流学习使用 客户支持和服务:仅供交流学习使用客户支持和服务:仅供交流学习使用 培训与教育:仅供交流学习使用培训与教育:智能应用生态服务行业赋能0460472024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能0460472024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集大模型赋能长三角教育现代化典型案例的应用研究教育经济宏观政策研究院是由教育部与上海市人民政府共建、华东师范大学与上海市教育科学研究院联合承建,入选首批上海市重点智库,受教育部委托承担长三角教育现代化监测评估等重大战略项目。宏观院以服务教育宏观决策为目标,以跨学科、长时段研究为基础,以采集和使用实证数据为特色,着力打造服务国家和上海重大教育改革的思想高地、人才高地,努力成为有世界影响力的中国一流智库。珍岛集团 Marketingforce,是中国最大的营销与销售 SaaS 公司,也是全球领先的 AI 营销平台。成立于 2009 年,总部位于上海市大数据产业基地,全球 20 余家分支机构,累计申请软件著作和专利 600 余项。Marketingforce 搭载先进的 Tforce 营销大模型,率先构建了一个垂直一体化的 AI 整合技术架构,提供以营销云和销售云为核心的六朵云智能服务体系。累计服务超 20 万 企业,涵盖零售消费、汽车、金融、B2B、医药大健康、企服、跨境电商等行业领域。公司曾获得国家科学技术进步二等奖、上海科学技术进步一等奖、中国互联网百强企业称号,上海市民营企业百强等荣誉,并连续 5 年被互联网周刊评为中国 AI SaaS 第一名。典型案例是长三角教育现代化监测评估的重要内容之一,教育部长怀进鹏在首届中国案例建设国际研讨会上强调,案例是丰富全球治理理论、改革教育教学理念、繁荣国际学术交流的重要载体,中国特色案例建设具有重要的学术价值、教育价值、时代价值和世界价值。为贯彻落实习近平总书记在深入推进长三角一体化发展座谈会上的重要讲话精神,紧扣“一体化”和“高质量”两个关键词,充分发挥长三角“先行探路、引领示范、辐射带动”作用,根据中共中央国务院印发长江三角洲区域一体化发展规划纲要和教育部关于印发 任务 数据画像生成-标注模板推荐-智能化能力推荐-任务难度评估-任务用工推荐)的生成,并自动调用工具执行计划(包括创建标注模板、任务,调用智能化能力预处理数据,分发给标注人员);进一步地,我们基于专家经验和人工反馈信息构建了反馈收集-反馈加工-模型迭代-模型评估上架的反馈流程,借助思维链(CoT)、反思执行(ReAct)及过程监督等技术不断基于运行时反馈持续迭代智能体大脑和工具集,保证智能体能力与专家能力的持续性对齐。2.标注智能体(Tag Agent)标注智能体主要解决标注智能化工具辅助/行业知识库的管理、推荐及应用问题。Tag Agent 主要架构及能力(如图 2 所示),其中全局咨询 Consultant 主要服务标注任务发布阶段,运营人员可通过智能交互的方式完成对标注任务的智能化能力推荐、答疑等“导购”工作。标注助手 Assistant 主要服务标注人员,提供实时交互接口,结合人机协作提升标注效率。工具集 ToolSet 包含大量智能化标注工具,包含文本/图像/音频/视频等类别的原子智能化算法能力,Agent 自动分析任务画像并结合 Tool 描述,完成任务级智能tool 匹配并执行调用,其结果作为智能化辅助信息展示于标注界面,提升用工标注效率。此外,该模块还包含智能管理系统,对智能化能力进行全生命周期的管理。该模块主要有三个技术创新点,一是 Agent 技术在 Consultant 和 Assistant 中的应用,以 LLM 作为执行大脑,利用 Agent 技术串联了整个标注过程中的智能化能力推荐、部署、答疑,最终实现了提升标注效率目标;二是知识辅助的人机协同标注,通过领域知识库来进行行业知识辅助标注/预标注,提升标注效率的同时降低标注专业性门槛,我们构建了完整的领域知识链路(包括采集、加工、质量校验以及知识更新与扩充),并通过检索增强生成(RAG)技术以LLM 作为枢纽理解用户意图,更精准召回行业知识;三,在工具集中将大模型作为解决问题的原子能力,通过 Autoprompt 技术,将上游多变的任务自动化的完成智能化能力的构建和部署,在保证交付质量的同时提升了智能化能力开发的时间和交付效率。3.质检智能体(Quality Agent)质检智能体主要解决标注任务的质量监测与风险发现问题。借助 Agent 的工具调用以及大模型的分析能力,我们给 Agent 输入标注任务信息、标注结果数据、用工实时状态指标数据,Agent 自动调用异常检测工具进行效率及数据分布检测,预测异常用工行为并推出预警进行人工干预,以确保任务执行过程中的高标准和高准确,保障交付质量。其主要技术创新为,我们建设了以 Agent 为中心的异常信息加工分析,任务拆解,智能工具调用和分析报告生成的自动化业务链路逐步替代大批量依赖人工干预抽检的传统链路,不仅扩大了质检范围,而且大幅提升了质检效率、质检问题发现的时效性以及可解释性。此外,在解决标注业务的全链路效率提升问题的同时,我们关注到标注数据是服务于大模型训练的,大模型能力增长反过来会助力标注智能化这样的标训一体环路。通过数据标签化、主动学习、多任务学习、增量学习方法从标注数据中筛选构造高质量的任务和数据组合参与大模型动态训练与迭代,提升标注数据在大模型训练中的效率和价值。【AI Tagger 标注智能体】已在蚂蚁大模型标注业务中得到广泛应用,帮助标注总体效率提升近 40%,高质量交付占比提升至 90%,产生了超过 400 万元的实际经济效益。其中,在金融、医疗等行业中效果尤为显著,基于行业知识库(医药、临床问诊、基金、保险等)构建大模型辅标、预标、纠错等能力,帮助标注人员在作业过程中可获得专业知识参考,大幅降低门槛。目前标注 Agent 主要应用于蚂蚁大模型及投后公司标注项目,随着能力的持续迭代完善,后续将通过标注服务融合及接口独立调用的方式面向市场进行推广。效益分析图 2 Tag Agent 结构仅供交流学习使用执行计划(包括创建标注模板、任务,调用智能化能力预处理数据,分发给标注人员);进一步地,我们基于仅供交流学习使用执行计划(包括创建标注模板、任务,调用智能化能力预处理数据,分发给标注人员);进一步地,我们基于专家经验和人工反馈信息构建了反馈收集-反馈加工-模型迭代-模型评估上架的反馈流程,借助思维仅供交流学习使用专家经验和人工反馈信息构建了反馈收集-反馈加工-模型迭代-模型评估上架的反馈流程,借助思维链(CoT)、反思执行(ReAct)及过程监督等技术不断基于运行时反馈持续迭代智能体大脑和工具集,保证智能仅供交流学习使用链(CoT)、反思执行(ReAct)及过程监督等技术不断基于运行时反馈持续迭代智能体大脑和工具集,保证智能标注智能体主要解决标注智能化工具辅助/行业知识库的管理、推荐及应用问题。Tag Agent 主要架构及仅供交流学习使用标注智能体主要解决标注智能化工具辅助/行业知识库的管理、推荐及应用问题。Tag Agent 主要架构及能力(如图 2 所示),其中全局咨询 Consultant 主要服务标注任务发布阶段,运营人员可通过智能交互的仅供交流学习使用能力(如图 2 所示),其中全局咨询 Consultant 主要服务标注任务发布阶段,运营人员可通过智能交互的方式完成对标注任务的智能化能力推荐、答疑等“导购”工作。标注助手 Assistant 主要服务标注人员,提仅供交流学习使用方式完成对标注任务的智能化能力推荐、答疑等“导购”工作。标注助手 Assistant 主要服务标注人员,提供实时交互接口,结合人机协作提升标注效率。工具集 ToolSet 包含大量智能化标注工具,包含文本/图像仅供交流学习使用供实时交互接口,结合人机协作提升标注效率。工具集 ToolSet 包含大量智能化标注工具,包含文本/图像/音频/视频等类别的原子智能化算法能力,Agent 自动分析任务画像并结合 Tool 描述,完成任务级智能仅供交流学习使用/音频/视频等类别的原子智能化算法能力,Agent 自动分析任务画像并结合 Tool 描述,完成任务级智能tool 匹配并执行调用,其结果作为智能化辅助信息展示于标注界面,提升用工标注效率。仅供交流学习使用tool 匹配并执行调用,其结果作为智能化辅助信息展示于标注界面,提升用工标注效率。仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用质检智能体主要解决标注任务的质量监测与风险发现问题。借助 Agent 的工具调用以及大模型的分析能力,仅供交流学习使用质检智能体主要解决标注任务的质量监测与风险发现问题。借助 Agent 的工具调用以及大模型的分析能力,我们给 Agent 输入标注任务信息、标注结果数据、用工实时状态指标数据,Agent 自动调用异常检测工具仅供交流学习使用我们给 Agent 输入标注任务信息、标注结果数据、用工实时状态指标数据,Agent 自动调用异常检测工具进行效率及数据分布检测,预测异常用工行为并推出预警进行人工干预,以确保任务执行过程中的高标准仅供交流学习使用进行效率及数据分布检测,预测异常用工行为并推出预警进行人工干预,以确保任务执行过程中的高标准仅供交流学习使用和高准确,保障交付质量。其主要技术创新为,我们建设了以 Agent 为中心的异常信息加工分析,任务拆解,仅供交流学习使用和高准确,保障交付质量。其主要技术创新为,我们建设了以 Agent 为中心的异常信息加工分析,任务拆解,智能工具调用和分析报告生成的自动化业务链路逐步替代大批量依赖人工干预抽检的传统链路,不仅扩大了仅供交流学习使用智能工具调用和分析报告生成的自动化业务链路逐步替代大批量依赖人工干预抽检的传统链路,不仅扩大了质检范围,而且大幅提升了质检效率、质检问题发现的时效性以及可解释性。仅供交流学习使用质检范围,而且大幅提升了质检效率、质检问题发现的时效性以及可解释性。此外,在解决标注业务的全链路效率提升问题的同时,我们关注到标注数据是服务于大模型训练的,大模型仅供交流学习使用此外,在解决标注业务的全链路效率提升问题的同时,我们关注到标注数据是服务于大模型训练的,大模型能力增长反过来会助力标注智能化这样的标训一体环路。通过数据标签化、主动学习、多任务学习、增量学仅供交流学习使用能力增长反过来会助力标注智能化这样的标训一体环路。通过数据标签化、主动学习、多任务学习、增量学习方法从标注数据中筛选构造高质量的任务和数据组合参与大模型动态训练与迭代,提升标注数据在大模型仅供交流学习使用习方法从标注数据中筛选构造高质量的任务和数据组合参与大模型动态训练与迭代,提升标注数据在大模型仅供交流学习使用【AI Tagger 标注智能体】已在蚂蚁大模型标注业务中得到广泛应用,帮助标注总体效率提升近 40%,高质仅供交流学习使用【AI Tagger 标注智能体】已在蚂蚁大模型标注业务中得到广泛应用,帮助标注总体效率提升近 40%,高质量交付占比提升至 90%,产生了超过 400 万元的实际经济效益。其中,在金融、医疗等行业中效果尤为显著,仅供交流学习使用量交付占比提升至 90%,产生了超过 400 万元的实际经济效益。其中,在金融、医疗等行业中效果尤为显著,基于行业知识库(医药、临床问诊、基金、保险等)构建大模型辅标、预标、纠错等能力,帮助标注人员在仅供交流学习使用基于行业知识库(医药、临床问诊、基金、保险等)构建大模型辅标、预标、纠错等能力,帮助标注人员在作业过程中可获得专业知识参考,大幅降低门槛。目前标注 Agent 主要应用于蚂蚁大模型及投后公司标注仅供交流学习使用作业过程中可获得专业知识参考,大幅降低门槛。目前标注 Agent 主要应用于蚂蚁大模型及投后公司标注项目,随着能力的持续迭代完善,后续将通过标注服务融合及接口独立调用的方式面向市场进行推广。仅供交流学习使用项目,随着能力的持续迭代完善,后续将通过标注服务融合及接口独立调用的方式面向市场进行推广。效益分析仅供交流学习使用效益分析智能应用生态服务行业赋能2002012024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2002012024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集东方财富 Choice 下一代智能金融终端 上海东方财富金融数据服务有限公司注册于 2011 年 11 月 08 日,是东方财富信息股份有限公司的全资子公司,注册资金为 5000 万元人民币。2021 年公司被认定为高新技术企业,2023 年被认定为上海市专精特新中小企业。公司主营专业的金融大数据品牌Choice 数据。Choice数据拥有海量、及时、全面的金融数据,集数据统计、数据提取和数据分析为一体。公司定位为 2B 模式,主营业务为向金融投资机构、研究机构、学术机构、监管机构、媒体等用户提供专业的金融数据信息服务,市场渗透率超 90%,市占率处于在行业中名列前茅。结合金融市场发展,公司现已推出系列金融数据产品,包括金融终端、金融数据 APP、数据库、量化平台等,形式不限于提供数据检索、提取、统计、分析等服务内容,为机构用户提供高效、精准的综合性解决方案。AI 资讯助手是金融领域一款创新的智能化资讯阅读工具,致力于为专业投资者打造一个高效率、高精准度的金融信息服务平台。AI 资讯助手是由上海东方财富金融数据服务有限公司开发的一款专业金融应用,该应用依托于公司自主研发的妙想金融大模型,其核心功能是迅速汇总财经资讯,精准提炼关键信息,并针对用户的查询迅速生成准确答案,极大提升了金融信息处理的效率和准确性,确保用户能够及时获取到更相关、更有价值的市场信息。AI 资讯助手的卓越性能源于其千亿参数规模的大语言模型和 1.2 万亿高质量金融语料库,结合先进的资讯预处理技术,包括内容切分和实体识别,确保了搜索结果的精确性。此外,应用通过同义词搜索、语义召回和意图识别等技术,实现了全面且深入的资讯召回;再辅以多路排序分数权重和精排重排算法,进一步优化了搜索结果的排序。最终,根据用户的提问生成对应的最优总结,显著提升了资讯处理的效率和准确性。凭借这些先进技术,AI 资讯助手不仅极大地便利了专业投资者的信息处理工作,而且随着金融市场的发展和技术的进步,其市场前景广阔,商业潜力巨大。AI资讯助手正逐步成为金融投资领域内不可或缺的高效、专业级金融信息处理工具,引领行业迈向更智能的未来。机构投研用户和专业投资者在日常工作中面临着海量股票市场信息的挑战,需要持续跟踪和分析大量的股票及相关资讯。这些资讯中往往充斥着大量与投资决策关联性不高的内容,或者只包含零散的有效信息片段。在这种情况下,AI 资讯助手的总结功能显得尤为重要。它通过先进的人工智能技术,能够自动识别和筛选出与股票高度相关的信息,并对这些信息进行精准的摘要和提炼,从而显著降低了信息噪音的干扰。这一功能不仅帮助用户节省了宝贵的时间,还大幅提升了资讯阅读的效率,使得投资者能够更加专注于核心的投资分析工作,做出更加明智和高效的投资决策。AI 资讯助手的相关总结和问答功能因此成为机构投资者在复杂多变的金融市场中不可或缺的辅助工具。AI 资讯助手的主要能力包括以下四点:1.智能资讯总结:针对个股资讯,通过运用妙想大模型,从海量资讯中提取关键信息,帮助专业金融用户快速掌握与个股相关的核心要点。此外,该功能还能评估资讯的重要性,指导用户决定是否需要深入阅读全文,从而显著提高资讯处理的效率和质量。(图 1)2.资讯问答互动:结合智能资讯摘要,我们提供互动式的资讯问答服务。用户可以通过提问的方式,直接获取所需的数据和分析结果。这种服务模式不仅方便快捷,而且能够确保用户得到精准、相关的信息,满足个性化的资讯需求。(图 2)上海东方财富金融数据服务有限公司概 述需求分析案例介绍图 147仅供交流学习使用仅供交流学习使用全资子公司,注册资金为 5000 万元人民币。2021 年公司被认定为高新技术企业,2023 年被认定仅供交流学习使用全资子公司,注册资金为 5000 万元人民币。2021 年公司被认定为高新技术企业,2023 年被认定公司主营专业的金融大数据品牌Choice 数据。Choice数据拥有海量、及时、全面的金融数据,仅供交流学习使用公司主营专业的金融大数据品牌Choice 数据。Choice数据拥有海量、及时、全面的金融数据,集数据统计、数据提取和数据分析为一体。公司定位为 2B 模式,主营业务为向金融投资机构、研仅供交流学习使用集数据统计、数据提取和数据分析为一体。公司定位为 2B 模式,主营业务为向金融投资机构、研究机构、学术机构、监管机构、媒体等用户提供专业的金融数据信息服务,市场渗透率超 90%,市仅供交流学习使用究机构、学术机构、监管机构、媒体等用户提供专业的金融数据信息服务,市场渗透率超 90%,市占率处于在行业中名列前茅。结合金融市场发展,公司现已推出系列金融数据产品,包括金融终端、仅供交流学习使用占率处于在行业中名列前茅。结合金融市场发展,公司现已推出系列金融数据产品,包括金融终端、金融数据 APP、数据库、量化平台等,形式不限于提供数据检索、提取、统计、分析等服务内容,仅供交流学习使用金融数据 APP、数据库、量化平台等,形式不限于提供数据检索、提取、统计、分析等服务内容,仅供交流学习使用AI 资讯助手是金融领域一款创新的智能化资讯阅读工具,致力于为专业投资者仅供交流学习使用AI 资讯助手是金融领域一款创新的智能化资讯阅读工具,致力于为专业投资者打造一个高效率、高精准度的金融信息服务平台。AI 资讯助手是由上海东方财仅供交流学习使用打造一个高效率、高精准度的金融信息服务平台。AI 资讯助手是由上海东方财富金融数据服务有限公司开发的一款专业金融应用,该应用依托于公司自主研仅供交流学习使用富金融数据服务有限公司开发的一款专业金融应用,该应用依托于公司自主研发的妙想金融大模型,其核心功能是迅速汇总财经资讯,精准提炼关键信息,仅供交流学习使用发的妙想金融大模型,其核心功能是迅速汇总财经资讯,精准提炼关键信息,并针对用户的查询迅速生成准确答案,极大提升了金融信息处理的效率和准确仅供交流学习使用并针对用户的查询迅速生成准确答案,极大提升了金融信息处理的效率和准确性,确保用户能够及时获取到更相关、更有价值的市场信息。仅供交流学习使用性,确保用户能够及时获取到更相关、更有价值的市场信息。仅供交流学习使用仅供交流学习使用仅供交流学习使用能不仅帮助用户节省了宝贵的时间,还大幅提升了资讯阅读的效率,使得投资者能够更加专注于核心的投资仅供交流学习使用能不仅帮助用户节省了宝贵的时间,还大幅提升了资讯阅读的效率,使得投资者能够更加专注于核心的投资分析工作,做出更加明智和高效的投资决策。AI 资讯助手的相关总结和问答功能因此成为机构投资者在复仅供交流学习使用分析工作,做出更加明智和高效的投资决策。AI 资讯助手的相关总结和问答功能因此成为机构投资者在复针对个股资讯,通过运用妙想大模型,从海量资讯中提取关键信息,帮助专业金融用户仅供交流学习使用针对个股资讯,通过运用妙想大模型,从海量资讯中提取关键信息,帮助专业金融用户快速掌握与个股相关的核心要点。此外,该功能还能评估资讯的重要性,指导用户决定是否需要深入阅读全仅供交流学习使用快速掌握与个股相关的核心要点。此外,该功能还能评估资讯的重要性,指导用户决定是否需要深入阅读全文,从而显著提高资讯处理的效率和质量。(图 1)仅供交流学习使用文,从而显著提高资讯处理的效率和质量。(图 1)仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2022032024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2022032024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集3.提供最新资讯推荐:根据用户阅读的资讯提供最新的相关资讯,推荐最新的相关资讯,确保用户能够及时获取到最全面、最深入的信息资源。这种个性化推荐机制不仅丰富了用户的资讯视野,也加深了对资讯内容的理解和掌握,进一步提升了阅读的效率和效果。(图 3)4.推荐相关问句:为了帮助用户更加高效地表达查询需求,产品提供了智能问句辅助功能。用户无需从零开始构思问题,系统会根据当前阅读内容及用户偏好推荐合适的问句。这样的设计使得用户与系统的交流更加自然流畅,同时也提高了查询的准确性和效率。(图 4)技术创新点包括:1.应用检索增强生成(Retrieval Augmented Generation,RAG)技术:通过融合了信息检索与文本生成,借助外部知识源,显著提升了妙想金融大模型在文本生成方面的精确度、相关性和内容的深度与丰富度。2.资讯预处理的细化:对长篇资讯文本进行切割,形成易于分析的片段,并通过实体识别标注关键信息,为后续的搜索和资讯总结提供关键信息。3.多维度优化资讯召回:结合同义词扩展搜索范围,利用自然语言处理技术深化对查询的语义理解,并准确识别用户查询意图,从而全面提升搜索结果的全面性和相关性。4.排序机制的精细化与优化:通过整合多种排序因素,并对其进行权重调整,对初步排序结果进行精细化调整,以实现资讯检索结果的优化和精确化。AI 资讯助手极大提升了股票核心场景的工作效率,将原本需要半小时的资讯阅读和整理时间显著缩短至仅需 3 分钟,从而在金融信息处理的效率和质量上实现了超过 10 倍的效能提升。目前 AI 智能资讯应用已经为 Choice 金融终端的 PC 版和 APP 实现智能化赋能,不仅能为专业投资者提升用户体验,也为金融机构提供了强大的技术支持,后续也会为更多金融工具实现赋能,进而推动金融行业的创新和发展。图 2图 3图 4仅供交流学习使用根据用户阅读的资讯提供最新的相关资讯,推荐最新的相关资讯,确保用户能够及仅供交流学习使用根据用户阅读的资讯提供最新的相关资讯,推荐最新的相关资讯,确保用户能够及时获取到最全面、最深入的信息资源。这种个性化推荐机制不仅丰富了用户的资讯视野,也加深了对资讯内仅供交流学习使用时获取到最全面、最深入的信息资源。这种个性化推荐机制不仅丰富了用户的资讯视野,也加深了对资讯内容的理解和掌握,进一步提升了阅读的效率和效果。(图 3)仅供交流学习使用容的理解和掌握,进一步提升了阅读的效率和效果。(图 3)仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用1.应用检索增强生成(Retrieval Augmented Generation,RAG)技术:仅供交流学习使用1.应用检索增强生成(Retrieval Augmented Generation,RAG)技术:借助外部知识源,显著提升了妙想金融大模型在文本生成方面的精确度、相关性和内容的深度与丰富度。仅供交流学习使用借助外部知识源,显著提升了妙想金融大模型在文本生成方面的精确度、相关性和内容的深度与丰富度。2.资讯预处理的细化:仅供交流学习使用2.资讯预处理的细化:对长篇资讯文本进行切割,形成易于分析的片段,并通过实体识别标注关键信息,仅供交流学习使用对长篇资讯文本进行切割,形成易于分析的片段,并通过实体识别标注关键信息,为后续的搜索和资讯总结提供关键信息。仅供交流学习使用为后续的搜索和资讯总结提供关键信息。3.多维度优化资讯召回:仅供交流学习使用3.多维度优化资讯召回:结合同义词扩展搜索范围,利用自然语言处理技术深化对查询的语义理解,并准仅供交流学习使用结合同义词扩展搜索范围,利用自然语言处理技术深化对查询的语义理解,并准确识别用户查询意图,从而全面提升搜索结果的全面性和相关性。仅供交流学习使用确识别用户查询意图,从而全面提升搜索结果的全面性和相关性。4.排序机制的精细化与优化:仅供交流学习使用4.排序机制的精细化与优化:调整,以实现资讯检索结果的优化和精确化。仅供交流学习使用调整,以实现资讯检索结果的优化和精确化。AI 资讯助手极大提升了股票核心场景的工作效率,将原本需要半小时的资讯阅读和整理时间显著缩短至仅仅供交流学习使用AI 资讯助手极大提升了股票核心场景的工作效率,将原本需要半小时的资讯阅读和整理时间显著缩短至仅需 3 分钟,从而在金融信息处理的效率和质量上实现了超过 10 倍的效能提升。仅供交流学习使用需 3 分钟,从而在金融信息处理的效率和质量上实现了超过 10 倍的效能提升。智能应用生态服务行业赋能2042052024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2042052024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集AI 资讯助手作为一款金融行业高度智能化资讯阅读产品,旨在为专业投资者提供高效、精准的资讯服务。它通过人工智能技术,能够快速地从海量的资讯中提取关键信息,并根据用户的具体需求生成定制化的回答。AI 资讯助手为专业投资者带来了显著的社会经济效益。它通过高效的信息处理能力,大幅节约了投资者在阅读和分析上的时间和精力,从而显著提高了资讯处理的效率。利用先进的算法和强大的数据分析功能,该产品能够有效减少因人为疏忽造成的信息遗漏和错误,确保信息的完整性和准确性。此外,AI 资讯助手提供的科学决策支持能够增强投资决策的精准度,提高投资的成功率,同时有效降低潜在的风险和财务损失。在商业模式和应用推广现状:AI 资讯助手作为 Choice 金融终端的核心智能功能,致力于为使用该终端的专业投资者和投研用户提供全面的智能化服务。未来,商业模式的发展方向将集中在推广和扩展Choice金融数据终端软件的市场覆盖,以满足用户的深度金融信息需求。目前,Choice 金融数据终端已经集成了相关核心功能,并且正根据技术进步、市场需求和用户反馈不断进行功能更新与优化。这一持续迭代的过程旨在进一步提升专业投资者的使用体验,确保他们能够享受到更高效、更精准的金融服务。效益分析仅供交流学习使用能力,大幅节约了投资者在阅读和分析上的时间和精力,从而显著提高了资讯仅供交流学习使用能力,大幅节约了投资者在阅读和分析上的时间和精力,从而显著提高了资讯处理的效率。利用先进的算法和强大的数据分析功能,该产品能够有效减少因仅供交流学习使用处理的效率。利用先进的算法和强大的数据分析功能,该产品能够有效减少因人为疏忽造成的信息遗漏和错误,确保信息的完整性和准确性。此外,AI 资讯仅供交流学习使用人为疏忽造成的信息遗漏和错误,确保信息的完整性和准确性。此外,AI 资讯助手提供的科学决策支持能够增强投资决策的精准度,提高投资的成功率,同仅供交流学习使用助手提供的科学决策支持能够增强投资决策的精准度,提高投资的成功率,同在商业模式和应用推广现状:AI 资讯助手作为 Choice 金融终端的核心智能功能,仅供交流学习使用在商业模式和应用推广现状:AI 资讯助手作为 Choice 金融终端的核心智能功能,致力于为使用该终端的专业投资者和投研用户提供全面的智能化服务。未来,仅供交流学习使用致力于为使用该终端的专业投资者和投研用户提供全面的智能化服务。未来,商业模式的发展方向将集中在推广和扩展Choice金融数据终端软件的市场覆盖,仅供交流学习使用商业模式的发展方向将集中在推广和扩展Choice金融数据终端软件的市场覆盖,以满足用户的深度金融信息需求。目前,Choice 金融数据终端已经集成了相关仅供交流学习使用以满足用户的深度金融信息需求。目前,Choice 金融数据终端已经集成了相关核心功能,并且正根据技术进步、市场需求和用户反馈不断进行功能更新与优化。仅供交流学习使用核心功能,并且正根据技术进步、市场需求和用户反馈不断进行功能更新与优化。这一持续迭代的过程旨在进一步提升专业投资者的使用体验,确保他们能够享仅供交流学习使用这一持续迭代的过程旨在进一步提升专业投资者的使用体验,确保他们能够享受到更高效、更精准的金融服务。仅供交流学习使用受到更高效、更精准的金融服务。仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2062072024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2062072024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集安全智选:基于用户理解大模型的服务创新蚂蚁智安安全技术(上海)有限公司,成立于 2018 年 3 月 20 日,是蚂蚁集团大安全事业群在上海市浦东新区注册的企业主体,总部位于上海市浦东新区,主营软件和信息技术服务业。23 年底在职员工 678 人,研发人员占比 66%,23 年企业收入超 24 亿元。目前经营状况良好。蚂蚁智安长期致力于互联网安全风控技术的研究,依托蚂蚁集团软硬件系统资源,典型客户涵盖公安等政府部门、500 强企业、商业银行、保险、融资租赁、供应链金融、私募股权投资等领域,在实战中累计数十种类罪风险模型,保障支付宝 10 亿用户的账户和资金安全。公司设有技术部、研发中心等机构进行产品研发。过去三年共对 22 项核心自主知识产权科技成果进行了转化,目前已成功转化为公司的主打产品智安风控与安全服务软件,其含多项世界领先水平的计算机软件、专利、非专利技术等高度整合而成,发挥了核心支持作用。蚂蚁致力于构建未来服务业的数字化基础设施,让每一个个体可以享受到普惠、绿色的服务。基于大模型,我们研发了【安全智选】这一产品,以实现在线上服务中,洞察和理解用户的需求和特点,更精准、更高效率地识别潜在客户的目的,同时【安全智选】还着重基于大数据风控能力,实现对“羊毛党”等群体的有效规避,推动落地更安全、普惠的服务。传统的基于人工定义规则或场景定制化建模的服务推荐和触客方法,存在灵活度低、效果不稳定、建模成本高、不区分黑产用户等问题,无法保证用户体验和运营效率,【安全智选】基于大模型实现了“一句话交互”的人群圈选范式,创新的将自然语言与互联网场景中多源异构的用户数据进行对齐,构造了十亿级用户描述样本对,以一种预测未来的建模方式实现更好的需求和兴趣人群定位,在营销获客、风控识别、运营效率全链路中达到“多、快、好、省”的效果。目前【安全智选】在信贷、保险、医疗、安全体验等近百个服务场景中应用,人群采用率达到 90%以上。国务院印发的关于推进普惠金融高质量发展的实施意见明确提出,支持金融机构深化运用互联网、大数据、人工智能、区块链等科技手段,实现数字化转型,打造健康的数字普惠金融生态。除了包括信贷、保险等金融场景外,在在这一背景下,【安全智选】基于大模型技术,实现了一句话精准圈人的运营能力,为各类服务场景提供了易操作、更精准的用户洞察工具,降低了智能营销门槛的同时还有效规避了风险人群“薅羊毛”等套利行为,为践行以人为本的服务创造了更好的技术条件和支撑。【安全智选】基于大模型创建了一个圈选 Agent,理解用户输入并通过调用多个工具引擎生成不同的圈人策略。其中更是创新的提出了基于自然语言对齐的动态圈人范式,覆盖场景多,运营效率高,投放效果好。其创新点主要包括三部分:一、动态精准圈人 Agent 技术安全智选接受用户一句话输入,基于大模型分析能力,理解用户意图并根据是否提供样本,生成零样本、少样本、多样本场景下的执行策略。【安全智选】提供了自动调用关键词生成、向量检索、机器学习训练引擎、数据库执行引擎等不同工具,我们使用 Agent 自动组合并调用这些 tool 并生成结果和投放建议,以一种智能的方式,弥补了营销运营人员和智能算法之间的理解偏差,让人群定位和触客变得更简单,更高效。蚂蚁智安安全技术(上海)有限公司概 述需求分析案例介绍广告营销、电商推荐、内容推荐等核心场景中,每一类场景都需要对用户的偏好、兴趣、习惯等进行建模,进而找到感兴趣的人群。精准的人群圈选可以帮助提升服务/产品推荐的点击率和转化率,既能帮助企业增加收入,又能规避黑产的困扰,提升用户满意度和忠诚度。为了解决这一命题,借助技术手段不断创新人群定位和服务推荐方式非常关键。但不是每个企业都具备训练模型和打造模型应用的能力,也不是每个企业都能够提供行业和市场相关的洞见和建议,而大模型恰恰为降低精准营销的门槛和成本,进一步推广相关技术和智能工具的普及应用创造了一个机会。48仅供交流学习使用仅供交流学习使用海市浦东新区注册的企业主体,总部位于上海市浦东新区,主营软件和信息技术服务业。23 年底仅供交流学习使用海市浦东新区注册的企业主体,总部位于上海市浦东新区,主营软件和信息技术服务业。23 年底蚂蚁智安长期致力于互联网安全风控技术的研究,依托蚂蚁集团软硬件系统资源,典型客户涵盖公仅供交流学习使用蚂蚁智安长期致力于互联网安全风控技术的研究,依托蚂蚁集团软硬件系统资源,典型客户涵盖公安等政府部门、500 强企业、商业银行、保险、融资租赁、供应链金融、私募股权投资等领域,在仅供交流学习使用安等政府部门、500 强企业、商业银行、保险、融资租赁、供应链金融、私募股权投资等领域,在实战中累计数十种类罪风险模型,保障支付宝 10 亿用户的账户和资金安全。仅供交流学习使用实战中累计数十种类罪风险模型,保障支付宝 10 亿用户的账户和资金安全。公司设有技术部、研发中心等机构进行产品研发。过去三年共对 22 项核心自主知识产权科技成果仅供交流学习使用公司设有技术部、研发中心等机构进行产品研发。过去三年共对 22 项核心自主知识产权科技成果进行了转化,目前已成功转化为公司的主打产品智安风控与安全服务软件,其含多项世界领先水平仅供交流学习使用进行了转化,目前已成功转化为公司的主打产品智安风控与安全服务软件,其含多项世界领先水平的计算机软件、专利、非专利技术等高度整合而成,发挥了核心支持作用。仅供交流学习使用的计算机软件、专利、非专利技术等高度整合而成,发挥了核心支持作用。仅供交流学习使用蚂蚁致力于构建未来服务业的数字化基础设施,让每一个个体可以享受到普惠、仅供交流学习使用蚂蚁致力于构建未来服务业的数字化基础设施,让每一个个体可以享受到普惠、绿色的服务。基于大模型,我们研发了【安全智选】这一产品,以实现在线上仅供交流学习使用绿色的服务。基于大模型,我们研发了【安全智选】这一产品,以实现在线上服务中,洞察和理解用户的需求和特点,更精准、更高效率地识别潜在客户的仅供交流学习使用服务中,洞察和理解用户的需求和特点,更精准、更高效率地识别潜在客户的目的,同时【安全智选】还着重基于大数据风控能力,实现对“羊毛党”等群仅供交流学习使用目的,同时【安全智选】还着重基于大数据风控能力,实现对“羊毛党”等群体的有效规避,推动落地更安全、普惠的服务。传统的基于人工定义规则或场仅供交流学习使用体的有效规避,推动落地更安全、普惠的服务。传统的基于人工定义规则或场景定制化建模的服务推荐和触客方法,存在灵活度低、效果不稳定、建模成本仅供交流学习使用景定制化建模的服务推荐和触客方法,存在灵活度低、效果不稳定、建模成本仅供交流学习使用仅供交流学习使用在这一背景下,【安全智选】基于大模型技术,实现了一句话精准圈人的运营能力,为各类服务场景提供了仅供交流学习使用在这一背景下,【安全智选】基于大模型技术,实现了一句话精准圈人的运营能力,为各类服务场景提供了易操作、更精准的用户洞察工具,降低了智能营销门槛的同时还有效规避了风险人群“薅羊毛”等套利行为,仅供交流学习使用易操作、更精准的用户洞察工具,降低了智能营销门槛的同时还有效规避了风险人群“薅羊毛”等套利行为,仅供交流学习使用【安全智选】基于大模型创建了一个圈选 Agent,理解用户输入并通过调用多个工具引擎生成不同的圈人策仅供交流学习使用【安全智选】基于大模型创建了一个圈选 Agent,理解用户输入并通过调用多个工具引擎生成不同的圈人策略。其中更是创新的提出了基于自然语言对齐的动态圈人范式,覆盖场景多,运营效率高,投放效果好。其仅供交流学习使用略。其中更是创新的提出了基于自然语言对齐的动态圈人范式,覆盖场景多,运营效率高,投放效果好。其仅供交流学习使用仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2082092024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2082092024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集二、自然语言对齐多源异构数据的建模新范式我们首次构建了百亿级样本对,使用用户理解大模型得到用户表征,使用大语言模型得到自然语言表征,然后通过对比学习方法对齐两者。这种对齐范式从根本上降低了服务运营工作人员的运营门槛,不需要运营人员单独再依据需求寻找数据并建模,极大提升了效率。三、用户理解大模型预训练不同于自然语言数据和图像数据,业界很少有关于多源异构数据的预训练算法,如何设计不同的编码器并进行表征融合、设计预训练代理任务等都没有相关的参考。针对这部分数据我们为每种模态单独设计编码器,并基于自回归和对比学习的预训练方法表征用户行为习惯。用户表征预训练模型也可以大大加速对齐过程,提升对齐效果。总的来说,【安全智选大模型】在能力上具有“多、快、好、省”的效果,因为大模型的使用,其泛化性强、可冷启动分钟级精准定位人群,排除风险人群和黑产的干扰,其效果远远超出传统的运营方式,并大大节省了计算和人力资源。目前在信贷优质人群圈选、保险推广、医疗健康服务推荐等近百个场景使用,有效率超 90%。1.通过安全智选技术,可以高效的将在线服务和感兴趣的人群匹配起来,提升转化效率,规避薅羊毛等营销风险,降低推广成本。从技术上,也首次将自然语言理解与多源异构数据进行对齐,从实践上也证明了这种对齐的有效性,为行业提供了可借鉴的解决方案。2.安全智选技术通过产品化的方式对外提供调用,操作简单,可复制和迁移性强,运营人员只需要输入一句话,就可以完成人群定位,将结果在各种业务场景进行投放,在投放阶段,我们也通过择时、择位等方式提高下游的转化率,在某些场景也可以通过文本、语音等特定的智能交互触客方式来提高转化,优化用户体验。3.应用推广现状:目前安全智选的一句话圈人已经在蚂蚁集团内部的近百个场景应用,累计为公司降本增收超 3 亿元。效益分析仅供交流学习使用我们首次构建了百亿级样本对,使用用户理解大模型得到用户表征,使用大语言模型得到自然语言表征,然仅供交流学习使用我们首次构建了百亿级样本对,使用用户理解大模型得到用户表征,使用大语言模型得到自然语言表征,然后通过对比学习方法对齐两者。这种对齐范式从根本上降低了服务运营工作人员的运营门槛,不需要运营人仅供交流学习使用后通过对比学习方法对齐两者。这种对齐范式从根本上降低了服务运营工作人员的运营门槛,不需要运营人员单独再依据需求寻找数据并建模,极大提升了效率。仅供交流学习使用员单独再依据需求寻找数据并建模,极大提升了效率。三、用户理解大模型预训练仅供交流学习使用三、用户理解大模型预训练不同于自然语言数据和图像数据,业界很少有关于多源异构数据的预训练算法,如何设计不同的编码器并进仅供交流学习使用不同于自然语言数据和图像数据,业界很少有关于多源异构数据的预训练算法,如何设计不同的编码器并进行表征融合、设计预训练代理任务等都没有相关的参考。针对这部分数据我们为每种模态单独设计编码器,仅供交流学习使用行表征融合、设计预训练代理任务等都没有相关的参考。针对这部分数据我们为每种模态单独设计编码器,并基于自回归和对比学习的预训练方法表征用户行为习惯。用户表征预训练模型也可以大大加速对齐过程,仅供交流学习使用并基于自回归和对比学习的预训练方法表征用户行为习惯。用户表征预训练模型也可以大大加速对齐过程,仅供交流学习使用仅供交流学习使用仅供交流学习使用2.安全智选技术通过产品化的方式对外提供调用,操作简单,可复制和迁移性强,仅供交流学习使用2.安全智选技术通过产品化的方式对外提供调用,操作简单,可复制和迁移性强,运营人员只需要输入一句话,就可以完成人群定位,将结果在各种业务场景进仅供交流学习使用运营人员只需要输入一句话,就可以完成人群定位,将结果在各种业务场景进行投放,在投放阶段,我们也通过择时、择位等方式提高下游的转化率,在某仅供交流学习使用行投放,在投放阶段,我们也通过择时、择位等方式提高下游的转化率,在某仅供交流学习使用些场景也可以通过文本、语音等特定的智能交互触客方式来提高转化,优化用仅供交流学习使用些场景也可以通过文本、语音等特定的智能交互触客方式来提高转化,优化用3.应用推广现状:目前安全智选的一句话圈人已经在蚂蚁集团内部的近百个场仅供交流学习使用3.应用推广现状:目前安全智选的一句话圈人已经在蚂蚁集团内部的近百个场景应用,累计为公司降本增收超 3 亿元。仅供交流学习使用景应用,累计为公司降本增收超 3 亿元。智能应用生态服务行业赋能2102112024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2102112024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集病历生成式语言模型上海森亿医疗科技有限公司(森亿智能)成立于 2016 年,是一家专注于将人工智能技术、大数据技术与健康医疗领域的应用场景相结合,提供数智化健康医疗应用的企业。成立至今,公司获得IDG 资本、腾讯、红杉资本等知名机构投资。作为国家高新技术企业,森亿智能已获得行业、学会奖项荣誉 150 余项,相关专利和软件著作证书 150 余项,学术论文 80 余篇。公司基于融合了人工智能平台、数据平台及医学知识平台的“数智医脑”,提供以包括医疗大数据管理、健康医疗数智化等应用为特色的中国智慧医疗整体解决方案具备完整知识产权。为医疗行业率先适配华为鲲鹏处理器体系的大数据解决方案,现已服务 200 余家三级医院,多个区域平台与医共体,全面助推医疗数字化转型。森亿智能的病历生成式语言模型可以根据患者信息、跟随医生思路,自动灵活扩写病历,边写边生成病情描述、鉴别诊断、治疗方案等信息,无需选择病历模板即可轻松生成病历。不仅如此,由于医生使用目的不同,该模型可代入不同角色(交班、汇报、出院),以多种角度和方式总结生成病历摘要、治疗建议和出院小结。该模型还拥有能够读“懂”医生思维的 AI 智能扩写功能,临床医生可与人工智能“协作配合”书写病历,极大节省医生在患者出院前的文书工作时间,使节省时间充分应用于与患者沟通,提升医疗服务质量。森亿智能的病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大数据应用交流大会(2023 CHITEC)上正式亮相,当天现场近 500 余位行业专家进行了模型测试与体验,超过 90%的专家表示在日常工作中,生成式病历能够提升病历录入的速度,书写方便流畅,并且愿意成为产品的首批使用者。近年来,无论是国家层面,还是各省市层面,在政策制定中都将电子病历应用水平建设作为重点方向。我国电子病历行业市场规模不断扩大,2022 年我国电子病历行业市场规模达到 22.5 亿元,同比增长 13.07%,并在持续增长中。电子病历作为医疗卫生信息化建设的重要组成部分,实现了医疗机构内部信息的全面、准确、及时共享和管理,方便患者就医。另一方面,电子病历可以减少医生和护士的工作量,提高工作效率和工作质量,让他们更专注于患者的治疗。去年以 ChatGPT 为代表的生成式大语言模型引起了人工智能领域新一轮技术革森亿智能发布自主研发的病历生成式语言模型,具备更“懂”医生思维,更“懂”医疗场景,更“懂”工作流程的特点和技术创新,具体体现在以下方面:1“懂”医生思维,智能扩写文书,提质增效通常临床医生写病史,需要在脑海中先勾勒病史要点框架,同时围绕要点补充很多雷同的模板化文本信息,不仅费时耗力,还可能出现差错。而“懂”医生思维的AI智能扩写,让病历书写成为临床医生和人工智能的“协作配合”。例如:在入院记录中,首先临床医生提供“主诉”,系统会根据这个信息自动生成“起病情况描述”,当临床医生补充“肿块边缘清晰”这一描述信息后,系统自动补全了“肿块质地、活动性 等同类伴随症状的描述。上海森亿医疗科技有限公司概 述需求分析案例介绍命的浪潮。医疗领域超高的专业复杂度,给医疗生成式语言模型的落地应用带来了新的挑战和机遇。这不仅仅需要有成熟高效的研发体系,还需要将医学知识体系化并与之结合,两者缺一不可,而 ChatGPT 在这个赛道的应用存在巨大的市场潜力。森亿智能基于多年医学自然语言处理技术的累积,结合医疗领域垂直业务场景的经验与实践,始终致力于打造无缝一体化数据治理和数据应用,积极探索病历生成式语言模型。不仅对于开拓医疗生成式语言模型应用的商业化场景具有里程碑的意义,同时也迎合电子病历产品的增长势头,为未来数智化应用的发展提供了更多创新形态。(场景 1:要点联想扩写)49仅供交流学习使用仅供交流学习使用技术与健康医疗领域的应用场景相结合,提供数智化健康医疗应用的企业。成立至今,公司获得仅供交流学习使用技术与健康医疗领域的应用场景相结合,提供数智化健康医疗应用的企业。成立至今,公司获得IDG 资本、腾讯、红杉资本等知名机构投资。作为国家高新技术企业,森亿智能已获得行业、学会仅供交流学习使用IDG 资本、腾讯、红杉资本等知名机构投资。作为国家高新技术企业,森亿智能已获得行业、学会奖项荣誉 150 余项,相关专利和软件著作证书 150 余项,学术论文 80 余篇。公司基于融合了人工仅供交流学习使用奖项荣誉 150 余项,相关专利和软件著作证书 150 余项,学术论文 80 余篇。公司基于融合了人工智能平台、数据平台及医学知识平台的“数智医脑”,提供以包括医疗大数据管理、健康医疗数智仅供交流学习使用智能平台、数据平台及医学知识平台的“数智医脑”,提供以包括医疗大数据管理、健康医疗数智化等应用为特色的中国智慧医疗整体解决方案具备完整知识产权。为医疗行业率先适配华为鲲鹏处仅供交流学习使用化等应用为特色的中国智慧医疗整体解决方案具备完整知识产权。为医疗行业率先适配华为鲲鹏处理器体系的大数据解决方案,现已服务 200 余家三级医院,多个区域平台与医共体,全面助推医疗仅供交流学习使用理器体系的大数据解决方案,现已服务 200 余家三级医院,多个区域平台与医共体,全面助推医疗仅供交流学习使用森亿智能的病历生成式语言模型可以根据患者信息、跟随医生思路,自动灵活仅供交流学习使用森亿智能的病历生成式语言模型可以根据患者信息、跟随医生思路,自动灵活扩写病历,边写边生成病情描述、鉴别诊断、治疗方案等信息,无需选择病历仅供交流学习使用扩写病历,边写边生成病情描述、鉴别诊断、治疗方案等信息,无需选择病历模板即可轻松生成病历。不仅如此,由于医生使用目的不同,该模型可代入不仅供交流学习使用模板即可轻松生成病历。不仅如此,由于医生使用目的不同,该模型可代入不同角色(交班、汇报、出院),以多种角度和方式总结生成病历摘要、治疗建仅供交流学习使用同角色(交班、汇报、出院),以多种角度和方式总结生成病历摘要、治疗建议和出院小结。该模型还拥有能够读“懂”医生思维的 AI 智能扩写功能,临床仅供交流学习使用议和出院小结。该模型还拥有能够读“懂”医生思维的 AI 智能扩写功能,临床医生可与人工智能“协作配合”书写病历,极大节省医生在患者出院前的文书仅供交流学习使用医生可与人工智能“协作配合”书写病历,极大节省医生在患者出院前的文书工作时间,使节省时间充分应用于与患者沟通,提升医疗服务质量。仅供交流学习使用工作时间,使节省时间充分应用于与患者沟通,提升医疗服务质量。森亿智能的病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大仅供交流学习使用森亿智能的病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用森亿智能发布自主研发的病历生成式语言模型,具备更“懂”医生思维,更“懂”医疗场景,更“懂”工作仅供交流学习使用森亿智能发布自主研发的病历生成式语言模型,具备更“懂”医生思维,更“懂”医疗场景,更“懂”工作通常临床医生写病史,需要在脑海中先勾勒病史要点框架,同时围绕要点补充很多雷同的模板化文本信息,仅供交流学习使用通常临床医生写病史,需要在脑海中先勾勒病史要点框架,同时围绕要点补充很多雷同的模板化文本信息,不仅费时耗力,还可能出现差错。而“懂”医生思维的AI智能扩写,让病历书写成为临床医生和人工智能的“协仅供交流学习使用不仅费时耗力,还可能出现差错。而“懂”医生思维的AI智能扩写,让病历书写成为临床医生和人工智能的“协例如:在入院记录中,首先临床医生提供“主诉”,系统会根据这个信息自动生成“起病情况描述”,仅供交流学习使用例如:在入院记录中,首先临床医生提供“主诉”,系统会根据这个信息自动生成“起病情况描述”,当临床医生补充“肿块边缘清晰”这一描述信息后,系统自动补全了“肿块质地、活动性 等同类伴随症状仅供交流学习使用当临床医生补充“肿块边缘清晰”这一描述信息后,系统自动补全了“肿块质地、活动性 等同类伴随症状仅供交流学习使用的商业化场景具有里程碑的意义,同时也迎合电子病历产品的增长势头,为未来数智化应用的发展提供了更仅供交流学习使用的商业化场景具有里程碑的意义,同时也迎合电子病历产品的增长势头,为未来数智化应用的发展提供了更智能应用生态服务行业赋能2122132024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2122132024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集2“懂”医疗场景,多样化总结病历摘要,灵活应用临床医生经常需要在常规工作之外,根据不同临床业务的需求对病史信息进行分析总结。一旦分析总结没有及时记录,就极易丢失;使用表格总结,又会过于繁琐、效率也不高。而在智能化病历书的场景下,可以根据不同临床应用目的,以多种方式对文书进行总结,生成不同摘要表格。例如:根据同一份 入院记录,可生成用于查房交班汇报的“简明版”病历摘要,也可以根据教学讨论的需求,生成用于病例讨论的“详细版”病历摘要。3“懂”工作流程,智能生成出院小结,让医生从“电脑桌旁”回到“患者床旁”在日常临床工作流程中,基于患者之前的文书内容将会生成大量的流程性文书工作,如 出院小结、转入、转出记录。临床医生需要经常来回切换翻阅,通过复制文书来进行二次内容整合,从而花费了大量的时间。在智能化病历书的场景下,可以通过总结EMR中患者的住院文书,分析概括关键信息,智能生成 出院小结。例如:分析手术记录的 手术经过 后,将其中的内容概括改写进出院小结的“诊疗经过”。(场景 2:入院记录 多模式摘要显示)(场景 3:出院记录自动生成)森亿智能病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大数据应用交流大会(2023 CHITEC)上正式亮相,现场近 500 余位行业专家进行了模型测试与体验后,超过 90%的专家表示在日常工作中,生成式病历能够提升病历录入的速度,书写方便流畅,产品一经发布就获得了专家们的极大认可。随着森亿病历生成式语言模型的推出,为医疗数字化转型注入新的活力,对于提高医疗服务质量和效率、推动医疗服务的创新升级具有重要意义。未来,森亿智能将继续以医学人工智能技术为驱动,坚持自主研发和技术创新,不断结合技术优势探索医疗场景创新应用,以“最优化每一个医疗决策”为企业使命,全面助推医疗数字化转型。效益分析仅供交流学习使用例如:根据同一份 入院记录,可生成用于查房交班汇报的“简明版”病历摘要,也可以根据教学讨论的需求,仅供交流学习使用例如:根据同一份 入院记录,可生成用于查房交班汇报的“简明版”病历摘要,也可以根据教学讨论的需求,仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用(场景 3:出院记录自动生成)仅供交流学习使用(场景 3:出院记录自动生成)仅供交流学习使用森亿智能病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大数仅供交流学习使用森亿智能病历生成式语言模型在合肥举行的中国卫生信息技术/健康医疗大数据应用交流大会(2023 CHITEC)上正式亮相,现场近 500 余位行业专家进行了仅供交流学习使用据应用交流大会(2023 CHITEC)上正式亮相,现场近 500 余位行业专家进行了模型测试与体验后,超过 90%的专家表示在日常工作中,生成式病历能够提升仅供交流学习使用模型测试与体验后,超过 90%的专家表示在日常工作中,生成式病历能够提升病历录入的速度,书写方便流畅,产品一经发布就获得了专家们的极大认可。仅供交流学习使用病历录入的速度,书写方便流畅,产品一经发布就获得了专家们的极大认可。效益分析仅供交流学习使用效益分析智能应用生态服务行业赋能2142152024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2142152024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集ChatMemo艾为电子的芯片“百晓生”钉钉致力打造智能化的协同办公和智能化的应用开发双平台,是企业转型升级的“数字化底座”,是国内基于 SaaS 和 PaaS 的企业服务领域的先行者,在产业数字化和数字产业化领域积累了丰富的创新和实践经验。钉钉已获得工信部颁发的“国家级中小企业公共服务平台示范”称号、入选浙江省产业数字化服务商、浙江省工业互联网平台,也是浙江省产业数字化促进中心核心成员。钉钉目前拥有 6 亿用户,覆盖 2300 万组织,覆盖了制造、零售、建筑、物流等 20 多个行业,生态合作伙伴超 5000 家,钉应用数已超过 1000 万,其中低代码应用数超过 800 万。目前钉钉已有 17 条产品线、55 个场景全面接入大模型,完成智能化再造,在文生文、文生图、文生表、文生应用、机器人答疑等场景进行全面智能化,帮助每家企业打造自己的专属大模型,助力千行百业从数字化时代到智能化时代升级。每一家企业组织可以借助钉钉这个工作入口,结合企业自身的行业知识和应用场景,训练自己的专属大模型。目前钉钉已服务全国 50%以上的专精特新“小巨人”(浙江60%),打造了一批“小快轻准”的产品,受到中小企业的广泛欢迎。2022 年钉钉深度参与浙江省产业数字化“三个全覆盖”工作,去年 8 月浙江省经信厅成立产业数字化促进中心,钉钉作为 5家核心成员单位之一,负责“三个全覆盖”的评估评价和实施推广。全省积极探索大胆尝试,推出了合适中小企业数字化转型的“小快轻准”十大高频应用,钉钉有 7 款。艾为电子成立于 2008 年 6 月,是一家专注于芯片设计的公司。艾为电子以高性能数模混合信号、电源管理和信号链等 IC 设计为主要领域。公司在 2022 年获得了科创板硬科技领军企业、上海市级设计创新中心等荣誉称号,并在同年 8 月成功在上海证券交易所科创板上市。艾为电子致力于深入了解客户需求,专注自主研发和创新,并已经推出了超过 1000 余款产品,涵盖了消费类电子、AIoT、工业和汽车等市场领域。截至目前,公司拥有一千余名员工,其中技术人员超过 900 人,并且取得了 398 项国内外专利和 51 项软件著作权。近年来,随着人工智能技术的不断发展,利用生成式大语言模型实现自动问答已成为人工智能领域的热点之一。钉钉 ChatMemo 就是一款基于大模型的智能问答应用,可对企业的知识资产文件进行解析、内容切片处理和向量存储,构建企业专属的 AI 知识库。对于用户提问的问题,ChatMemo 会首先对用户的意图进行分析、匹配合适的功能链路,然后根据专业词汇的训练结果对问题进行艾为电子作为芯片设计公司,拥有 42 种产品子类,1000 余款产品型号,各自都有产品手册和设计指南,详细描述产品的功能、电子特性、应用场景、设计方法等。这些资料具有纯英文、专业门槛高、参数复杂多样等特点,要准确回答海量的与产品参数相关的问题,非常考验回答者的行业知识,一般的客服人员根本无法应对这类问题。由于艾为的产品是 IC 芯片,里面包含了大量的技术专有名词、表格、电路图和各种技术参数,有时一些词汇在芯片产品说明书里的意思与通用的含义还会出现不一致的情况,而目前通用的大语言模型无法理解这些专业名词、技术参数等,因此普通的智能问答根本无法提供准确的回答。主要能力:复杂文档解析、融合召回能力可对复杂文档结构进行精准解析和分片,融合了多种召回方式并创新性地加入知识图谱辅助搜索,提升召回的质量。钉钉(中国)信息技术有限公司联合申报单位:上海艾为电子技术股份有限公司概 述需求分析案例介绍补充和增强,同时找到关键词在文件中的准确定位,保证回答的准确率,极大提高智能问答助理的构建效率和效果。本项目是钉钉与艾为电子深度共创,以通义生成式语言大模型为基底,将艾为的产品资料、设计手册等专业文档整合到 ChatMemo 中,为用户提供更智能、更专业的问题解答。图 1 艾为电子产品体系知识图谱全景图50仅供交流学习使用仅供交流学习使用是国内基于 SaaS 和 PaaS 的企业服务领域的先行者,在产业数字化和数字产业化领域积累了丰富仅供交流学习使用是国内基于 SaaS 和 PaaS 的企业服务领域的先行者,在产业数字化和数字产业化领域积累了丰富的创新和实践经验。钉钉已获得工信部颁发的“国家级中小企业公共服务平台示范”称号、入选浙仅供交流学习使用的创新和实践经验。钉钉已获得工信部颁发的“国家级中小企业公共服务平台示范”称号、入选浙江省产业数字化服务商、浙江省工业互联网平台,也是浙江省产业数字化促进中心核心成员。钉钉仅供交流学习使用江省产业数字化服务商、浙江省工业互联网平台,也是浙江省产业数字化促进中心核心成员。钉钉目前拥有 6 亿用户,覆盖 2300 万组织,覆盖了制造、零售、建筑、物流等 20 多个行业,生态合仅供交流学习使用目前拥有 6 亿用户,覆盖 2300 万组织,覆盖了制造、零售、建筑、物流等 20 多个行业,生态合作伙伴超 5000 家,钉应用数已超过 1000 万,其中低代码应用数超过 800 万。目前钉钉已有 17 条仅供交流学习使用作伙伴超 5000 家,钉应用数已超过 1000 万,其中低代码应用数超过 800 万。目前钉钉已有 17 条产品线、55 个场景全面接入大模型,完成智能化再造,在文生文、文生图、文生表、文生应用、仅供交流学习使用产品线、55 个场景全面接入大模型,完成智能化再造,在文生文、文生图、文生表、文生应用、机器人答疑等场景进行全面智能化,帮助每家企业打造自己的专属大模型,助力千行百业从数字化仅供交流学习使用机器人答疑等场景进行全面智能化,帮助每家企业打造自己的专属大模型,助力千行百业从数字化时代到智能化时代升级。每一家企业组织可以借助钉钉这个工作入口,结合企业自身的行业知识和仅供交流学习使用时代到智能化时代升级。每一家企业组织可以借助钉钉这个工作入口,结合企业自身的行业知识和应用场景,训练自己的专属大模型。目前钉钉已服务全国 50%以上的专精特新“小巨人”(浙江仅供交流学习使用应用场景,训练自己的专属大模型。目前钉钉已服务全国 50%以上的专精特新“小巨人”(浙江60%),打造了一批“小快轻准”的产品,受到中小企业的广泛欢迎。2022 年钉钉深度参与浙江仅供交流学习使用60%),打造了一批“小快轻准”的产品,受到中小企业的广泛欢迎。2022 年钉钉深度参与浙江省产业数字化“三个全覆盖”工作,去年 8 月浙江省经信厅成立产业数字化促进中心,钉钉作为 5仅供交流学习使用省产业数字化“三个全覆盖”工作,去年 8 月浙江省经信厅成立产业数字化促进中心,钉钉作为 5家核心成员单位之一,负责“三个全覆盖”的评估评价和实施推广。全省积极探索大胆尝试,推出仅供交流学习使用家核心成员单位之一,负责“三个全覆盖”的评估评价和实施推广。全省积极探索大胆尝试,推出了合适中小企业数字化转型的“小快轻准”十大高频应用,钉钉有 7 款。仅供交流学习使用了合适中小企业数字化转型的“小快轻准”十大高频应用,钉钉有 7 款。艾为电子成立于 2008 年 6 月,是一家专注于芯片设计的公司。艾为电子以高性能数模混合信号、仅供交流学习使用艾为电子成立于 2008 年 6 月,是一家专注于芯片设计的公司。艾为电子以高性能数模混合信号、电源管理和信号链等 IC 设计为主要领域。公司在 2022 年获得了科创板硬科技领军企业、上海市级仅供交流学习使用电源管理和信号链等 IC 设计为主要领域。公司在 2022 年获得了科创板硬科技领军企业、上海市级设计创新中心等荣誉称号,并在同年 8 月成功在上海证券交易所科创板上市。艾为电子致力于深仅供交流学习使用设计创新中心等荣誉称号,并在同年 8 月成功在上海证券交易所科创板上市。艾为电子致力于深入了解客户需求,专注自主研发和创新,并已经推出了超过 1000 余款产品,涵盖了消费类电子、仅供交流学习使用入了解客户需求,专注自主研发和创新,并已经推出了超过 1000 余款产品,涵盖了消费类电子、AIoT、工业和汽车等市场领域。截至目前,公司拥有一千余名员工,其中技术人员超过 900 人,并仅供交流学习使用AIoT、工业和汽车等市场领域。截至目前,公司拥有一千余名员工,其中技术人员超过 900 人,并且取得了 398 项国内外专利和 51 项软件著作权。仅供交流学习使用且取得了 398 项国内外专利和 51 项软件著作权。仅供交流学习使用仅供交流学习使用仅供交流学习使用艾为电子作为芯片设计公司,拥有 42 种产品子类,1000 余款产品型号,各自都有产品手册和设计指南,仅供交流学习使用艾为电子作为芯片设计公司,拥有 42 种产品子类,1000 余款产品型号,各自都有产品手册和设计指南,详细描述产品的功能、电子特性、应用场景、设计方法等。这些资料具有纯英文、专业门槛高、参数复杂多仅供交流学习使用详细描述产品的功能、电子特性、应用场景、设计方法等。这些资料具有纯英文、专业门槛高、参数复杂多样等特点,要准确回答海量的与产品参数相关的问题,非常考验回答者的行业知识,一般的客服人员根本无仅供交流学习使用样等特点,要准确回答海量的与产品参数相关的问题,非常考验回答者的行业知识,一般的客服人员根本无由于艾为的产品是 IC 芯片,里面包含了大量的技术专有名词、表格、电路图和各种技术参数,有时一些词仅供交流学习使用由于艾为的产品是 IC 芯片,里面包含了大量的技术专有名词、表格、电路图和各种技术参数,有时一些词汇在芯片产品说明书里的意思与通用的含义还会出现不一致的情况,而目前通用的大语言模型无法理解这些仅供交流学习使用汇在芯片产品说明书里的意思与通用的含义还会出现不一致的情况,而目前通用的大语言模型无法理解这些专业名词、技术参数等,因此普通的智能问答根本无法提供准确的回答。仅供交流学习使用专业名词、技术参数等,因此普通的智能问答根本无法提供准确的回答。仅供交流学习使用复杂文档解析、融合召回能力仅供交流学习使用复杂文档解析、融合召回能力可对复杂文档结构进行精准解析和分片,融合了多种召回方式并创新性地加入知识图谱辅助搜索,提升召回仅供交流学习使用可对复杂文档结构进行精准解析和分片,融合了多种召回方式并创新性地加入知识图谱辅助搜索,提升召回的质量。仅供交流学习使用的质量。仅供交流学习使用仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2162172024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2162172024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集 提供白屏化“训练”能力可在 ChatMemo 后台配置行业领域的相关词汇和经验,提升大模型的行业理解能力,规范输出结果,总结出更好的答案。多重权限管控能力ChatMemo 具备权限扩展模块,与艾为的权限系统对接,对不同用户身份进行问答范围的权限设定,确保企业知识资产的安全。技术创新点:拟人化的会话管理 Agent用户的问题往往不能一次性表述清晰,直接根据用户的问题无法进行有效的知识检索。创新性地抽离出会话 Agent,专门对用户的问题进行分析,通过意图引导、反问等交互方式自然地完成意图路由,确保准确理解用户需求,提高问答准确率。基于 OCR 技术的文档解析与切片艾为企业内的文档格式、内容版式均比较复杂,里面包含左右分栏,复杂表格(合并单元格,跨页,超长表格),基于达摩院的 OCR 算法,实现文档结构的精准解析,根据文档内容和结构动态的进行分片,以达到最佳的召回效果。自研的图搜索与向量检索相结合的综合性召回算法在本案例中,智能助手服务的对象包括研发人员、销售团队及消费者等,其功能覆盖了产品信息咨询、IC 设计知识解答、产品推荐及手册获取等多个方面,对信息的精确性和实体间联系要求极高,通用的检索增强生成技术(RAG,Retrieval-AugmentedGeneration)并不能满足以上需求。在知识学习阶段,我们对知识内容进行高度压缩与提炼,构建了IC产品体系的知识图谱,并自研图搜索与向量检索相结合的综合性召回算法,同时召回结构化知识和非结构化知识,既保留了语义相似度的内容,也保留了不同实体间的关系信息,满足了数据准确性和关联性的技术需求。实施效果&应用落地情况:在艾为电子的服务场景下,ChatMemo 的问答准确度可达 90%。对外,面向艾为电子官网的用户,提供更加智能的问答体验。对内,艾为的员工可随时在钉钉 App 内与 AI 助理询问产品知识,极大提高工作效率。经济社会效益:艾为电子过去需要七八十名 IC 技术专家,额外花费时间解答客户问题,现在通过 ChatMemo智能回答既减轻员工压力,又提升用户满意度,增强企业品牌形象和市场竞争力。ChatMemo 帮助企业盘活知识资产,快速迈入 AI 新时代,同时又可以降低企业接入大模型的成本,企业内部的流程规则、培训手册、经营分享、技术文档等沉淀的文档都可以被盘活使用,并深入到员工的日常办公中,提高一线员工的满意度和工作效率。商业模式:通过产品订阅费、增值服务费从客户中获取收益。应用推广现状:目前,ChatMemo 已经在数十家企业中得到应用并验证其效果。随着人工智能技术的不断发展,我们相信 ChatMemo 将会在未来得到更广泛的应用和发展,并为更多企业带来卓越的价值和效益。效益分析图 2 文档解析和切片效果展示图 3 ChatMemo 产品架构图图 4 ChatMemo 在艾为电子内外部的实施效果仅供交流学习使用ChatMemo 具备权限扩展模块,与艾为的权限系统对接,对不同用户身份进行问答范围的权限设定,确保仅供交流学习使用ChatMemo 具备权限扩展模块,与艾为的权限系统对接,对不同用户身份进行问答范围的权限设定,确保用户的问题往往不能一次性表述清晰,直接根据用户的问题无法进行有效的知识检索。创新性地抽离出会话 仅供交流学习使用用户的问题往往不能一次性表述清晰,直接根据用户的问题无法进行有效的知识检索。创新性地抽离出会话 Agent,专门对用户的问题进行分析,通过意图引导、反问等交互方式自然地完成意图路由,确保准确理解仅供交流学习使用Agent,专门对用户的问题进行分析,通过意图引导、反问等交互方式自然地完成意图路由,确保准确理解艾为企业内的文档格式、内容版式均比较复杂,里面包含左右分栏,复杂表格(合并单元格,跨页,超长表格),仅供交流学习使用艾为企业内的文档格式、内容版式均比较复杂,里面包含左右分栏,复杂表格(合并单元格,跨页,超长表格),基于达摩院的 OCR 算法,实现文档结构的精准解析,根据文档内容和结构动态的进行分片,以达到最佳的仅供交流学习使用基于达摩院的 OCR 算法,实现文档结构的精准解析,根据文档内容和结构动态的进行分片,以达到最佳的仅供交流学习使用 自研的图搜索与向量检索相结合的综合性召回算法仅供交流学习使用自研的图搜索与向量检索相结合的综合性召回算法仅供交流学习使用仅供交流学习使用仅供交流学习使用在艾为电子的服务场景下,ChatMemo 的问答准确度可达 90%。对外,面向艾为电子官网的用户,提供更仅供交流学习使用在艾为电子的服务场景下,ChatMemo 的问答准确度可达 90%。对外,面向艾为电子官网的用户,提供更加智能的问答体验。对内,艾为的员工可随时在钉钉 App 内与 AI 助理询问产品知识,极大提高工作效率。仅供交流学习使用加智能的问答体验。对内,艾为的员工可随时在钉钉 App 内与 AI 助理询问产品知识,极大提高工作效率。仅供交流学习使用仅供交流学习使用仅供交流学习使用仅供交流学习使用经济社会效益仅供交流学习使用经济社会效益智能回答既减轻员工压力,又提升用户满意度,增强企业品牌形象和市场竞争力。仅供交流学习使用智能回答既减轻员工压力,又提升用户满意度,增强企业品牌形象和市场竞争力。仅供交流学习使用效益分析仅供交流学习使用效益分析智能应用生态服务行业赋能2182192024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2182192024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集CodeFuse 是基于蚂蚁集团自研的百灵大模型进行微调的代码大模型,功能覆盖了需求分析、编程开发、测试与构建、发布与运维、数据洞察等企业研发工作的全生命周期,帮助开发者更快、更轻松地编写代码。在需求分析阶段,通过 Project Copilot,支持需求文档、设计稿、API 生成,信息搜索总结;在编程开发阶段,通过 Code Copilot,支持代码生成、补全、解释、注释、翻译等功能,还支持 PR 总结、代码评审;在测试与构建阶段,通过 Test Copilot,支持测试场景分析、测试代码生成、测试资产选取、测试知识问答;在发布与运维阶段,通过 Ops Copilot,支持监控时序分析、监控日志解读、监控语义搜索、智能变更与应急;在数据洞察阶段,通过 Data Copilot,支持 SQL 语句生成,数据指标生成、数据报表生成、异动分析生成。目前,在蚂蚁内部,每周已有超五成程序员在日常研发中使用 CodeFuse。CodeFuse 生成的代码整体采纳率为 30%,在生成单元测试场景采纳率可以达到 50%。CodeFuse 于 2024 年 4 月推出“图生代码”新功能,支持开发人员用产品设计图一键生成代码,大幅提升前端页面的开发效率。“图生代码”功能主要服务前端工程师,在互联网产品开发环节,设计师画出设计图后,前端工程师需要用代码实现产品设计图,这项工作占用了较多开发工作量。图生代码可以根据设计图一键生成代码,可以极大降低开发团队在开发网页、小程序、APP 时的代码工作量。以一张中型网页为例,如果最终有 200 行代码,一人耗时约需 1 小时,一键生成后,工程师只需检查与调整,耗时大幅降低,把CodeFuse 代码大模型及智能研发应用实践蚂蚁智信(杭州)信息技术有限公司,简称蚂蚁智信,成立于 2017 年 2 月 28 日,是蚂蚁集团的全资子公司。蚂蚁智信持续推动数字科技的创新与应用,在区块链、隐私计算、安全科技、分布式数据库、大数据等领域持续投入。同时,蚂蚁智信持续将自身产品与服务,向行业与社会全面开放,携手各方为中小金融机构的数字化升级、服务业小微商家的数字化经营、产业链的数字化协作贡献力量。CodeFuse 是蚂蚁集团自研的代码大模型,为蚂蚁百灵大模型家族成员之一。蚂蚁集团立足在 AI 时代探索下一代研发范式变革,最早提出“AI 全生命周期研发平台”概念,并在蚂蚁的研发场景中反复验证、迭代。CodeFuse 可以实现从自然语言到代码的精准转化,不仅能够理解复杂的编程需求,还能帮助开发者生成高质量的代码、自动增加注释,自动生成测试用例,修复和优化代码等,极大提升了软件开发效率与创新能力。无论用户是初学者还是有经验的开发者,CodeFuse 都能够极大地提高编程效率和准确性,让人人可编程、可创新成为现实。截至目前,CodeFuse 已支持 40 余种编程语言和 10 余个主流 IDE 平台,代码生成整体采纳率达 30%。CodeFuse 代码大模型已开放给全社会,迄今累计开源 13 个代码仓库、4 个数据集、15 个大模型参数文件,Star 点赞数超过4000,下载量近 170 万。大模型时代,AI 程序员成为势不可挡的趋势。对个人开发者而言,AI 编程工具能够高效辅助完成从需求到代码实现的闭环过程。从企业维度则更关注整个研发流程的效率提升,除了关注代码生成的安全可靠可信,测试构建、发布运维以及数据洞察等方面也是至关重要的。CodeFuse 源于蚂蚁自身的开发场景及代码库沉淀,基于海量高质量代码数据和代码领域特色词表,和多任务微调技术 MFT,在蚂蚁一万多内部研发人员的日常编码、测试、运维等场景中,经过反复验证与迭代,致力于通过打造软件研发交付人机协同新范式,通过 Agent 与人类工程师进行交互,实现从需求分析、产品设计、架构设计到前后端代码实现,以及 CR、测试等全流程智能体。蚂蚁智信(杭州)信息技术有限公司概 述需求分析案例介绍智能研发平台-Code Copilot51仅供交流学习使用仅供交流学习使用全资子公司。蚂蚁智信持续推动数字科技的创新与应用,在区块链、隐私计算、安全科技、分布仅供交流学习使用全资子公司。蚂蚁智信持续推动数字科技的创新与应用,在区块链、隐私计算、安全科技、分布式数据库、大数据等领域持续投入。同时,蚂蚁智信持续将自身产品与服务,向行业与社会全面仅供交流学习使用式数据库、大数据等领域持续投入。同时,蚂蚁智信持续将自身产品与服务,向行业与社会全面开放,携手各方为中小金融机构的数字化升级、服务业小微商家的数字化经营、产业链的数字化仅供交流学习使用开放,携手各方为中小金融机构的数字化升级、服务业小微商家的数字化经营、产业链的数字化仅供交流学习使用CodeFuse 是蚂蚁集团自研的代码大模型,为蚂蚁百灵大模型家族成员之一。蚂仅供交流学习使用CodeFuse 是蚂蚁集团自研的代码大模型,为蚂蚁百灵大模型家族成员之一。蚂蚁集团立足在 AI 时代探索下一代研发范式变革,最早提出“AI 全生命周期研发仅供交流学习使用蚁集团立足在 AI 时代探索下一代研发范式变革,最早提出“AI 全生命周期研发平台”概念,并在蚂蚁的研发场景中反复验证、迭代。CodeFuse 可以实现从自仅供交流学习使用平台”概念,并在蚂蚁的研发场景中反复验证、迭代。CodeFuse 可以实现从自然语言到代码的精准转化,不仅能够理解复杂的编程需求,还能帮助开发者生仅供交流学习使用然语言到代码的精准转化,不仅能够理解复杂的编程需求,还能帮助开发者生成高质量的代码、自动增加注释,自动生成测试用例,修复和优化代码等,极仅供交流学习使用成高质量的代码、自动增加注释,自动生成测试用例,修复和优化代码等,极大提升了软件开发效率与创新能力。无论用户是初学者还是有经验的开发者,仅供交流学习使用大提升了软件开发效率与创新能力。无论用户是初学者还是有经验的开发者,CodeFuse 都能够极大地提高编程效率和准确性,让人人可编程、可创新成为现仅供交流学习使用CodeFuse 都能够极大地提高编程效率和准确性,让人人可编程、可创新成为现实。截至目前,CodeFuse 已支持 40 余种编程语言和 10 余个主流 IDE 平台,仅供交流学习使用实。截至目前,CodeFuse 已支持 40 余种编程语言和 10 余个主流 IDE 平台,代码生成整体采纳率达 30%。CodeFuse 代码大模型已开放给全社会,迄今累仅供交流学习使用代码生成整体采纳率达 30%。CodeFuse 代码大模型已开放给全社会,迄今累计开源 13 个代码仓库、4 个数据集、15 个大模型参数文件,Star 点赞数超过仅供交流学习使用计开源 13 个代码仓库、4 个数据集、15 个大模型参数文件,Star 点赞数超过4000,下载量近 170 万。仅供交流学习使用4000,下载量近 170 万。仅供交流学习使用仅供交流学习使用需求分析仅供交流学习使用需求分析仅供交流学习使用仅供交流学习使用与构建阶段,通过 Test Copilot,支持测试场景分析、测试代码生成、测试资产选取、测试知识问答;在发仅供交流学习使用与构建阶段,通过 Test Copilot,支持测试场景分析、测试代码生成、测试资产选取、测试知识问答;在发布与运维阶段,通过 Ops Copilot,支持监控时序分析、监控日志解读、监控语义搜索、智能变更与应急;仅供交流学习使用布与运维阶段,通过 Ops Copilot,支持监控时序分析、监控日志解读、监控语义搜索、智能变更与应急;在数据洞察阶段,通过 Data Copilot,支持 SQL 语句生成,数据指标生成、数据报表生成、异动分析生成。仅供交流学习使用在数据洞察阶段,通过 Data Copilot,支持 SQL 语句生成,数据指标生成、数据报表生成、异动分析生成。目前,在蚂蚁内部,每周已有超五成程序员在日常研发中使用 CodeFuse。CodeFuse 生成的代码整体采纳仅供交流学习使用目前,在蚂蚁内部,每周已有超五成程序员在日常研发中使用 CodeFuse。CodeFuse 生成的代码整体采纳仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2202212024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2202212024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能研发平台-前端编码 CopilotCodeFuse 代码大模型的出现,探索了让软件开发新范式。一是推动创新与技术进步:CodeFuse 的推出代表了人工智能与编程技术的深度融合,使得开发者能够更专注于创造性的工作,而非繁琐的重复性劳动。这种技术进步有望推动更多高质量、高创新性的软件产品的诞生。二是提高编程效率与准确性:无论是初学者还是经验丰富的开发者,都可以利用智能辅助模型快速完成代码编写、优化和重构,极大地提高了编程效率和代码质量。这有助于降低软件开发的成本,同时提升产品的稳定性和用户体验。效益分析程序员在图转代码的研发效率从小时级提升至秒级。这项功能基于蚂蚁百灵大模型的多模态技术能力研发。在自然语言生成代码、图生代码之后,CodeFuse 还将持续推出新功能,助力企业研发全链路的效率提升。CodeFuse 的技术指标突出。2023 年 9 月,CodeFuse 开源,登顶开源代码大模型 HumanEval 榜单,超过同期 GPT-4 表现。2024 年 2 月,CodeFuse 在权威机构 Big Code Models Leaderboard 代码大模型榜单上,以 43.58%WinRate 成为新晋榜首。三是降低技术门槛,拓宽人才库:CodeFuse 使得编程变得更加容易上手,即使是非专业的用户,也可以通过自然语言与 CodeFuse 交互,实现代码的生成和优化,推动更多人参与到软件开发中来,进一步拓宽了人才库。四是提升社会整体的技术水平:CodeFuse 的普及和应用将有助于构建一个更加智能化、高效化的社会。仅供交流学习使用智能研发平台-前端编码 Copilot仅供交流学习使用智能研发平台-前端编码 Copilot仅供交流学习使用仅供交流学习使用CodeFuse 代码大模型的出现,探索了让软件开发新范式。仅供交流学习使用CodeFuse 代码大模型的出现,探索了让软件开发新范式。一是推动创新与技术进步:仅供交流学习使用一是推动创新与技术进步:仅供交流学习使用效益分析仅供交流学习使用效益分析仅供交流学习使用仅供交流学习使用智能应用生态服务行业赋能2222232024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2222232024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集大模型驱动云端一体知识管理平台印象笔记是全球领先的科技企业,致力于用先进的技术和创新的工具产品,构建 AI 驱动的新质生产力平台,为数以亿计的个人知识工作者和知识团队提供一站式、智能化知识管理体验。印象笔记的使命和愿景是成为用户无处不在的“第二大脑”,融汇无限信息,拓展人类思维边界。在知识管理领域,印象笔记深耕多年,专注于跨平台资料收集、富文本编辑、多模态信息管理、云端同步、多人协作等领域的研究和技术积累,被广泛认可为知识工作者的首选效率工具。印象笔记坚持科技创新,自研印象大语言模型,驱动“印象 AI”服务,赋能旗下以印象笔记、剪藏、扫描宝、Verse 为代表的软件产品,和以印象智能笔 EverPEN、印象智能本 EverPAPER、印象电子马克笔 EverMarker 为代表的 AI 智能硬件。印象笔记面向全球用户提供产品和服务,帮助用户智能化捕捉和创作多模态数字信息,并进一步完善和构建个人、团队的知识体系。在信息时代,个人数据的处理和智能化应用已成为提升知识工作者生产力关键。针对信息碎片化和个性化需求难以满足的问题,印象笔记推出了基于大模型的云端一体知识管理平台。该解决方案利用神经处理单元(NPU)在个人终端上处理 AI 任务,结合本地语言模型与云端大模型,提供高度个性化、安全的智能助理服务。主要能力包括智能检索、个性化推理服务和自动化任务。技术创新点在于复合AI 系统设计、个人数据处理及增强流程、隐私保护、个性化推理机制以及边云协同训练和部署。通过与国内外芯片厂商合作,优化 AI 模型的硬件适配与量化,实现推理加速,提高系统响应速度和稳定性。该解决方案在实际应用中显著提升了文档管理、信息检索和任务自动化的效率,用户满意度大幅提升。部分功能已在内测中,未来将全面推向市场,进一步巩固印象笔记在个人知识管理领域的市场竞争力。随着数字化转型的推进,知识管理已成为企业和个人必备的核心能力。而在信息爆炸的今天,传统的知识管理方式面临着信息碎片化、个性化需求难以满足等问题。大模型驱动的智能化技术在自然语言处理、知识图谱构建等领域具有印象笔记推出的基于大模型的云端一体的 AI 个人助理解决方案,主要包括以下能力:1.智能检索:借助端侧模型超低延时的内容理解和索引能力,结合云端推理服务,用户可以更容易地检索曾经处理过的笔记或相关的各种类型的附件,无论是本地存储还是云端存储。2.个性化推理服务:端侧轻量化印象大模型可以根据用户过往行为不断构建用户画像,为用户提供更个性化的推理服务。3.自动化任务:系统可以根据用户的使用习惯自动进行笔记索引、关联或日程提醒等任务,显著提升用户的工作效率和生活便利性。印象(上海)数字科技有限公司概 述需求分析案例介绍巨大潜力,能够提供更高效、个性化的知识管理解决方案,具有明显的竞争优势和需求空间。据权威统计,全球知识管理市场年增长率超过 50%。按照 IDC 预测,结合 AI 功能的 AI PC 将在 5 年内占据 80%的国内市场,达到 1312 亿的市场规模,依托于端侧大模型驱动的知识管理市场潜力巨大。在此背景下,我们结合端侧大模型与云上大模型,在充分保护用户数据资产的前提下,为用户提供不受终端设备限制、网络条件限制的大模型服务,实现个性化、智能化的知识管理与推荐,同时,密切协同产业链上下游的生态伙伴,包括芯片、云、终端设备厂商等,共同推动科技成果的落地和推广,抓住难得的时代机遇,打造具有全球竞争力的创新产品。新质生产力的发展离不开高素质人才的推动,而具备必要的知识素养与应用技能、具备对前沿科学的敏锐洞察能力和对颠覆性科技创新知识的实践运用能力,正是打造新质生产力生力军的重要保障。印象笔记通过大模型驱动下云端一体化的知识管理平台,协助广大知识工作者拓展知识的广度和深度,为发展新质生产力蓄势赋能,成为赋能千行百业的新质生产力平台。图 1 印象笔记端侧模型示意52仅供交流学习使用仅供交流学习使用产力平台,为数以亿计的个人知识工作者和知识团队提供一站式、智能化知识管理体验。印象笔记仅供交流学习使用产力平台,为数以亿计的个人知识工作者和知识团队提供一站式、智能化知识管理体验。印象笔记在知识管理领域,印象笔记深耕多年,专注于跨平台资料收集、富文本编辑、多模态信息管理、云仅供交流学习使用在知识管理领域,印象笔记深耕多年,专注于跨平台资料收集、富文本编辑、多模态信息管理、云端同步、多人协作等领域的研究和技术积累,被广泛认可为知识工作者的首选效率工具。仅供交流学习使用端同步、多人协作等领域的研究和技术积累,被广泛认可为知识工作者的首选效率工具。印象笔记坚持科技创新,自研印象大语言模型,驱动“印象 AI”服务,赋能旗下以印象笔记、剪藏、仅供交流学习使用印象笔记坚持科技创新,自研印象大语言模型,驱动“印象 AI”服务,赋能旗下以印象笔记、剪藏、扫描宝、Verse 为代表的软件产品,和以印象智能笔 EverPEN、印象智能本 EverPAPER、印象电子仅供交流学习使用扫描宝、Verse 为代表的软件产品,和以印象智能笔 EverPEN、印象智能本 EverPAPER、印象电子马克笔 EverMarker 为代表的 AI 智能硬件。印象笔记面向全球用户提供产品和服务,帮助用户智能仅供交流学习使用马克笔 EverMarker 为代表的 AI 智能硬件。印象笔记面向全球用户提供产品和服务,帮助用户智能化捕捉和创作多模态数字信息,并进一步完善和构建个人、团队的知识体系。仅供交流学习使用化捕捉和创作多模态数字信息,并进一步完善和构建个人、团队的知识体系。仅供交流学习使用在信息时代,个人数据的处理和智能化应用已成为提升知识工作者生产力关键。仅供交流学习使用在信息时代,个人数据的处理和智能化应用已成为提升知识工作者生产力关键。针对信息碎片化和个性化需求难以满足的问题,印象笔记推出了基于大模型的仅供交流学习使用针对信息碎片化和个性化需求难以满足的问题,印象笔记推出了基于大模型的云端一体知识管理平台。该解决方案利用神经处理单元(NPU)在个人终端上处仅供交流学习使用云端一体知识管理平台。该解决方案利用神经处理单元(NPU)在个人终端上处理 AI 任务,结合本地语言模型与云端大模型,提供高度个性化、安全的智能助仅供交流学习使用理 AI 任务,结合本地语言模型与云端大模型,提供高度个性化、安全的智能助理服务。仅供交流学习使用理服务。主要能力包括智能检索、个性化推理服务和自动化任务。技术创新点在于复合仅供交流学习使用主要能力包括智能检索、个性化推理服务和自动化任务。技术创新点在于复合仅供交流学习使用仅供交流学习使用仅供交流学习使用印象笔记推出的基于大模型的云端一体的 AI 个人助理解决方案,主要包括以下能力:仅供交流学习使用印象笔记推出的基于大模型的云端一体的 AI 个人助理解决方案,主要包括以下能力:借助端侧模型超低延时的内容理解和索引能力,结合云端推理服务,用户可以更容易地检索仅供交流学习使用借助端侧模型超低延时的内容理解和索引能力,结合云端推理服务,用户可以更容易地检索曾经处理过的笔记或相关的各种类型的附件,无论是本地存储还是云端存储。仅供交流学习使用曾经处理过的笔记或相关的各种类型的附件,无论是本地存储还是云端存储。端侧轻量化印象大模型可以根据用户过往行为不断构建用户画像,为用户提供更个性仅供交流学习使用端侧轻量化印象大模型可以根据用户过往行为不断构建用户画像,为用户提供更个性3.自动化任务:仅供交流学习使用3.自动化任务:系统可以根据用户的使用习惯自动进行笔记索引、关联或日程提醒等任务,显著提升用户仅供交流学习使用系统可以根据用户的使用习惯自动进行笔记索引、关联或日程提醒等任务,显著提升用户的工作效率和生活便利性。仅供交流学习使用的工作效率和生活便利性。仅供交流学习使用下游的生态伙伴,包括芯片、云、终端设备厂商等,共同推动科技成果的落地和推广,抓住难得的时代机遇,仅供交流学习使用下游的生态伙伴,包括芯片、云、终端设备厂商等,共同推动科技成果的落地和推广,抓住难得的时代机遇,新质生产力的发展离不开高素质人才的推动,而具备必要的知识素养与应用技能、具备对前沿科学的敏锐洞仅供交流学习使用新质生产力的发展离不开高素质人才的推动,而具备必要的知识素养与应用技能、具备对前沿科学的敏锐洞察能力和对颠覆性科技创新知识的实践运用能力,正是打造新质生产力生力军的重要保障。印象笔记通过大仅供交流学习使用察能力和对颠覆性科技创新知识的实践运用能力,正是打造新质生产力生力军的重要保障。印象笔记通过大模型驱动下云端一体化的知识管理平台,协助广大知识工作者拓展知识的广度和深度,为发展新质生产力蓄仅供交流学习使用模型驱动下云端一体化的知识管理平台,协助广大知识工作者拓展知识的广度和深度,为发展新质生产力蓄仅供交流学习使用智能应用生态服务行业赋能2242252024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2242252024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集技术创新点包括:1.复合 AI 系统设计:整合深度学习、自然语言处理、多模态索引等多种 AI 技术,构建一个高效的复合智能系统,以应对各种复杂的任务和查询。2.个人数据处理及增强流程:采用先进的数据处理技术,对用户数据进行实时分析和优化,提供更加精准和个性化的服务。3.隐私保护:实施最新的数据加密和隔离技术,确保用户数据的安全和隐私,遵守全球数据保护法规。4.个性化推理机制:开发高度个性化的推理算法,根据用户的行为模式和偏好进行智能决策和建议。5.边云协同训练和部署:结合边缘计算和云计算技术,优化模型的训练和部署过程,提高响应速度和系统稳定性。硬件适配与优化:1.模型适配:联合国内外芯片厂商,确保 AI 模型能够在各种处理器上高效运行。通过对模型进行硬件适配,充分发挥每种处理器的性能优势。图 2 印象大模型端云结合部署方案2.模型量化:实施模型量化技术,将模型转换为低比特率格式,减少计算资源的需求,同时保持预测精度和响应速度。这不仅提高了运行效率,还降低了能耗。3.推理加速:利用 AIPC 的高性能计算能力,优化 AI 模型的推理过程,实现即时的数据处理和响应,使用户在使用过程中获得流畅、快速的体验。实施效果:通过与国内外芯片厂商合作,推进平台在 PC 终端厂商落地,印象笔记的 AI 个人助理解决方案在实际应用中表现出色。在开发环境下测试人员反馈,该系统显著提高了文档管理、信息检索和任务自动化的效率,用户满意度大幅提升。特别是在高性能处理需求较高的任务中,如图像处理和复杂自然语言处理任务,AIPC的加速效果尤为明显。系统不仅提升了用户的工作效率,还改善了用户体验,使其在繁忙的工作和生活中能够更好地管理和利用信息。印象笔记大模型驱动云端一体知识管理平台预期将带来显著的经济和社会效益。通过提高文档管理、信息检索和任务自动化的效率,知识工作者的工作效率将得到显著提升。结合 AI 和大数据技术,项目将促进知识管理领域的数字化转型,增强企业和个人的生产力。同时,与芯片、云计算和终端设备厂商的深度合作,将推动软硬件一体化解决方案的市场普及。吸引更多的企业和投资者参与到人工智能领域的创新和发展中,带动相关产业生态的协同发展,加速产业转型升级,助力实现高水平科技自立自强,从而推动新质生产力的加速形成。目前,项目已在部分用户中进行内测,反馈良好,特别是在高性能处理任务中表现出色。待适配主流 NPU支持的机型完成后,项目将全面推向市场,预计将覆盖更广泛的用户群体。通过持续的技术优化和市场推广,有望成为知识管理领域的领先产品,推动行业创新发展,具备广阔的市场前景和巨大的社会影响力。效益分析仅供交流学习使用采用先进的数据处理技术,对用户数据进行实时分析和优化,提供更加精准仅供交流学习使用采用先进的数据处理技术,对用户数据进行实时分析和优化,提供更加精准实施最新的数据加密和隔离技术,确保用户数据的安全和隐私,遵守全球数据保护法规。仅供交流学习使用实施最新的数据加密和隔离技术,确保用户数据的安全和隐私,遵守全球数据保护法规。开发高度个性化的推理算法,根据用户的行为模式和偏好进行智能决策和建议。仅供交流学习使用开发高度个性化的推理算法,根据用户的行为模式和偏好进行智能决策和建议。结合边缘计算和云计算技术,优化模型的训练和部署过程,提高响应速度和系统仅供交流学习使用结合边缘计算和云计算技术,优化模型的训练和部署过程,提高响应速度和系统仅供交流学习使用仅供交流学习使用仅供交流学习使用通过与国内外芯片厂商合作,推进平台在 PC 终端厂商落地,印象笔记的 AI 个人助理解决方案在实际应用仅供交流学习使用通过与国内外芯片厂商合作,推进平台在 PC 终端厂商落地,印象笔记的 AI 个人助理解决方案在实际应用中表现出色。在开发环境下测试人员反馈,该系统显著提高了文档管理、信息检索和任务自动化的效率,用仅供交流学习使用中表现出色。在开发环境下测试人员反馈,该系统显著提高了文档管理、信息检索和任务自动化的效率,用户满意度大幅提升。特别是在高性能处理需求较高的任务中,如图像处理和复杂自然语言处理任务,AIPC仅供交流学习使用户满意度大幅提升。特别是在高性能处理需求较高的任务中,如图像处理和复杂自然语言处理任务,AIPC的加速效果尤为明显。系统不仅提升了用户的工作效率,还改善了用户体验,使其在繁忙的工作和生活中能仅供交流学习使用的加速效果尤为明显。系统不仅提升了用户的工作效率,还改善了用户体验,使其在繁忙的工作和生活中能仅供交流学习使用仅供交流学习使用印象笔记大模型驱动云端一体知识管理平台预期将带来显著的经济和社会效益。通过提高文档管理、信息仅供交流学习使用印象笔记大模型驱动云端一体知识管理平台预期将带来显著的经济和社会效益。通过提高文档管理、信息检索和任务自动化的效率,知识工作者的工作效率将得到显著提升。结合 AI 和大数据技术,项目将促进知仅供交流学习使用检索和任务自动化的效率,知识工作者的工作效率将得到显著提升。结合 AI 和大数据技术,项目将促进知识管理领域的数字化转型,增强企业和个人的生产力。同时,与芯片、云计算和终端设备厂商的深度合作,仅供交流学习使用识管理领域的数字化转型,增强企业和个人的生产力。同时,与芯片、云计算和终端设备厂商的深度合作,将推动软硬件一体化解决方案的市场普及。吸引更多的企业和投资者参与到人工智能领域的创新和发展中,仅供交流学习使用将推动软硬件一体化解决方案的市场普及。吸引更多的企业和投资者参与到人工智能领域的创新和发展中,带动相关产业生态的协同发展,加速产业转型升级,助力实现高水平科技自立自强,从而推动新质生产力的仅供交流学习使用带动相关产业生态的协同发展,加速产业转型升级,助力实现高水平科技自立自强,从而推动新质生产力的加速形成。仅供交流学习使用加速形成。目前,项目已在部分用户中进行内测,反馈良好,特别是在高性能处理任务中表现出色。待适配主流 NPU仅供交流学习使用目前,项目已在部分用户中进行内测,反馈良好,特别是在高性能处理任务中表现出色。待适配主流 NPU支持的机型完成后,项目将全面推向市场,预计将覆盖更广泛的用户群体。通过持续的技术优化和市场推广,仅供交流学习使用支持的机型完成后,项目将全面推向市场,预计将覆盖更广泛的用户群体。通过持续的技术优化和市场推广,有望成为知识管理领域的领先产品,推动行业创新发展,具备广阔的市场前景和巨大的社会影响力。仅供交流学习使用有望成为知识管理领域的领先产品,推动行业创新发展,具备广阔的市场前景和巨大的社会影响力。智能应用生态服务行业赋能2262272024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集智能应用生态服务行业赋能2262272024 大模型典型示范应用 案例集2024 大模型典型示范应用 案例集大模型在证券文件 FAQ 抽取中的应用长江证券股份有限公司成立于 1991 年,于 2007 年在深圳证券交易所主板上市。经过 30 多年坚持不懈的努力,已发展成为一家实力雄厚的全国性综合型金融服务商。目前,公司已建成涵盖证券经纪、投资银行、资产管理、基金、期货、私募股权投资、另类投资和海外业务等领域的证券金融控股集团架构,旗下拥有长江保荐、长江资管、长江资本、长江创新投资、长江期货、长证国际、长信基金等全资和控参股子公司。长江证券秉承“忠诚于党和国家、忠诚于企业、忠诚于客户”的价值理念,始终把“回报社会、反哺社会”的社会责任理念视为企业的神圣使命。在三十多年的稳健经营中,公司坚定做社会责任的践行者、倡导者、传播者,在守法、合规创造财富的同时感恩回馈社会,在行业和市场上树立了良好的品牌形象。金融证券行业随市场发展,业务规则和政策法规的复杂性趋增,凸显了对知识服务系统的需求。从内外用户角度出发,能快速响应并准确回答的智能服务系统是大家的共同需求。然而,传统的问答组(FAQ)构建方式需要大量的人力和时间,且难以及时响应业务变化。因此,能够及时更新和扩展知识库,以适应新的业务规则和用户需求调整的自动抽取 FAQ 项目应运而生。本项目的主要目标是解决证券行业知识库、知识服务系统面临的内容运营任务重、更新速度要求高的问题。通过运用大语言模型技术,该项目能够自动化地从海量文本中识别并挖掘问答组,支持知识拆解积累,并最终支持终端客户服务。不仅减轻了知识训练的工作压力,也提升了对内对外的知识服务质量和效率。在证券行业不断发展的情况下,为了提供高效准确的问题解答,知识训练师面临的内容运营任务尤为繁重。他们不仅需要具备深厚的证券业务知识和优秀的文字编辑技巧,还需要从复杂的政策法规和业务规则中挖掘出高价值的 FAQ。此外,知识训练师还需自行创作或从用户互动中提炼每个 FAQ 的相似问题,并持续对现有内容进行歧义优化。不仅如此,考虑到证券行业相关规则更迭迅速、时效性强的特点,知识训练师还需不断关注和调整 FAQ 内容以适应新的业务规范。因此,智能知识服务质量在很大程度上取决于业务知识范围的广度、语料库丰富程度以及运营更新速度,而这些关键指标的表现在传统的 FAQ 构建方式下,主要由知识训练师专业能力水平所决定。经严格的测试实证流程,大语言模型在内容处理和理解方面的准确性得到一致认可。智能 FAQ 抽取应用基于大语言模型,支持对多格式文档解析并进行语义理解,利用大语言模型对文本进行深度语义理解,识别潜在的问题和答案,并在终端显示问答对,支持知识训练师对生成的 FAQ 进行审核、编辑和管理(图 1)。根据知识库内容运营的核心工作流程,本项目利用大模型在 FAQ 提取、不同场景的答案话术生成、扩展问生成等方面实现应用(图 2)。长江证券股份有限公司概 述需求分析案例介绍图 1 FAQ 抽取应用流程图 2 大模型 FAQ 提取功能展示53仅供交流学习使用仅供交流学习使用目前,公司已建成涵盖证券经纪、投资银行、资产管理、基金、期货、私募股权投资、另类投资和仅供交流学习使用目前,公司已建成涵盖证券经纪、投资银行、资产管理、基金、期货、私募股权投资、另类投资和海外业务等领域的证券金融控股集团架构,旗下拥有长江保荐、长江资管、长江资本、长江创新投仅供交流学习使用海外业务等领域的证券金融控股集团架构,旗下拥有长江保荐、长江资管、长江资本、长江创新投长江证券秉承“忠诚于党和国家、忠诚于企业、忠诚于客户”的价值理念,始终把“回报社会、反仅供交流学习使用长江证券秉承“忠诚于党和国家、忠诚于企业、忠诚于客户”的价值理念,始终把“回报社会、反哺社会”的社会责任理念视为企业的神圣使命。在三十多年的稳健经营中,公司坚定做社会责任的仅供交流学习使用哺社会”的社会责任理念视为企业的神圣使命。在三十多年的稳健经营中,公司坚定做社会责任的践行者、倡导者、传播者,在守法、合规创造财富的同时感恩回馈社会,在行业和市场上树立了良仅供交流学习使用践行者、倡导者、传播者,在守法、合规创造财富的同时感恩回馈社会,在行业和市场上树立了良仅供交流学习使用金融证券行业随市场发展,业务规则和政策法规的复杂性趋增,凸显了对知识仅供交流学习使用金融证券行业随市场发展,业务规则和政策法规的复杂性趋增,凸显了对知识服务系统的需求。从内外用户角度出发,能快速响应并准确回答的智能服务系仅供交流学习使用服务系统的需求。从内外用户角度出发,能快速响应并准确回答的智能服务系统是大家的共同需求。然而,传统的问答组(FAQ)构建方式需要大量的人力和仅供交流学习使用统是大家的共同需求。然而,传统的问答组(FAQ)构建方式需要大量的人力和时间,且难以及时响应业务变化。因此,能够及时更新和扩展知识库,以适应仅供交流学习使用时间,且难以及时响应业务变化。因此,能够及时更新和扩展知识库,以适应新的业务规则和用户需求调整的自动抽取 FAQ 项目应运而生。仅供交流学习使用新的业务规则和用户需求调整的自动抽取 FAQ 项目应运而生。本项目的主要目标是解决证券行业知识库、知识服务系统面临的内容运营任务仅供交流学习使用本项目的主要目标是解决证券行业知识库、知识服务系统面临的内容运营任务重、更新速度要求高的问题。通过运用大语言模型技术,该项目能够自动化地仅供

    浏览量283人已浏览 发布时间2024-07-15 217页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 中国信通院:大模型基准测试体系研究报告(2024年)(52页).pdf

    中国信息通信研究院人工智能研究所 人工智能关键技术和应用评测工业和信息化部重点实验室 2024年6月 大模型基准测试体系研究报告大模型基准测试体系研究报告 (2022024 4 年年)版权声明版权声明 本报告版权属于中国信息通信研究院,并受法律保护。本报告版权属于中国信息通信研究院,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应转载、摘编或利用其它方式使用本报告文字或者观点的,应注明注明“来源:中国信息通信研究院来源:中国信息通信研究院”。违反上述声明者,本院。违反上述声明者,本院将追究其相关法律责任。将追究其相关法律责任。前前 言言 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”。如何准确、客观、全面衡量当前大模型能力,成为产学研用各界关注的重要问题。设计合理的任务、数据集和指标,对大模型进行基准测试,是定量评价大模型技术水平的主要方式。大模型基准测试不仅可以评估当前技术水平,指引未来学术研究,牵引产品研发、支撑行业应用,还可以辅助监管治理,也有利于增进社会公众对人工智能的正确认知,是促进人工智能技术产业发展的重要抓手。全球主要学术机构和头部企业都十分重视大模型基准测试,陆续发布了一系列评测数据集、框架和结果榜单,对于推动大模型技术发展产生了积极作用。然而,随着大模型能力不断增强和行业赋能逐渐深入,大模型基准测试体系还需要与时俱进,不断完善。本研究报告首先回顾了大模型基准测试的发展现状,对已发布的主要大模型评测数据集、体系和方法进行了梳理,分析了当前基准测试存在的问题和挑战,提出了一套系统化构建大模型基准测试的框架“方升”大模型基准测试体系,介绍了基于“方升”体系初步开展的大模型评测情况,并对未来大模型基准测试的发展趋势进行展望。面向未来,大模型基准测试仍存在诸多开放性的问题,还需要产学研各界紧密合作,共同建设大模型基准测试标准,为大模型行业健康有序发展提供有力支撑(联系人:韩旭,)。目目 录录 一、大模型基准测试发展概述.1(一)大模型基准测试的重要意义.2(二)蓬勃发展的大模型基准测试.4(三)大模型评测发展共性与差异.9 二、大模型基准测试现状分析.11(一)大模型基准测试体系总体介绍.11(二)代表性的大模型基准测试体系.17(三)问题与挑战.20 三、大模型基准测试体系框架.23(一)“方升”大模型基准测试体系.23(二)“方升”自适应动态测试方法.27 (三)“方升”大模型测试体系实践.30 四、总结与展望.35(一)形成面向产业应用的大模型评测体系.35(二)构建超自动化的大模型基准测试平台.36(三)探索 AGI 等先进人工智能的评测技术.36 图图 目目 录录 图 1 大模型发展历程 .1 图 2 大模型基准测试领域占比分布.5 图 3 大模型基准测试数据集发布时间.6 图 4 大模型基准测试数据集发布机构排名.7 图 5 大模型基准测试数据集发布国家分布.8 图 6 大模型基准测试数据集开源分布.9 图 7 大模型基准测试体系构成.11 图 8 大模型基准测试流程.13 图 9 大模型基准测试工具 LLMeBench 框架图.17 图 10 大模型评测基准 HELM 原理图.18 图 11“方升”大模型基准测试体系.24 图 12 自适应动态测试方法原理图.27 图 13 大模型基准测试标签体系.28 图 14“方升”大模型首轮试评测模式.31 图 15 开源大模型评测榜单结果.33 表表 目目 录录 表 1 代表性大模型官方发布结果中使用的评测数据集.6 附表 1 语言大模型通用能力的代表性评测数据集.38 附表 2 语言大模型行业能力的代表性评测数据集.39 附表 3 语言大模型应用能力的代表性评测数据集.40 附表 4 语言大模型安全能力的代表性评测数据集.41 附表 5 多模态大模型通用能力的代表性评测数据集.41大模型基准测试体系研究报告(2024 年)1 一、大模型基准测试发展概述 近几年,大模型推动人工智能技术迅猛发展,极大地拓展了机器智能的边界,展现出通用人工智能的“曙光”,全球各大科技巨头和创新型企业纷纷围绕大模型加强布局。如图 1 所示,2018 年,谷歌公司提出基于 Transformer 实现的预训练模型 BERT,在机器阅读理解水平测试 SQuAD 中刷新记录。同年,OpenAI 公司发布了第一代生成式预训练模型 GPT-1,擅长文本内容生成任务。随后几年,OpenAI 相继推出了 GPT-2 和 GPT-3,在技术架构、模型能力等方面进行持续创新。2022 年 11 月,OpenAI 发布的 ChatGPT 在智能问答领域上的表现引起产业界轰动。除了大语言模型,2023 年,OpenAI 还发布了多模态大模型 GPT-4。同期国内大模型的发展也呈现不断加速态势,已经发布了华为“盘古”、百度“文心一言”、阿里“通义千问”、腾讯“混元”和智谱“清言”等 200 多个通用和行业大模型产品。来源:中国信息通信研究院 图 1 大模型发展历程 大模型基准测试体系研究报告(2024 年)2 随着大模型产品的不断推出,对大模型的能力进行评测逐渐成为产业界关注的重点。1950 年代提出的图灵测试(Turing Testing)作为一种经典的人工智能测试方法,一直被认为是衡量机器智能水平的“试金石”。2023 年 7 月自然(Nature)发表文章ChatGPT broke the Turing test the race is on for new ways to assess AI,指出图灵测试已经无法满足大模型的评测要求,应该探索新方法来评估人工智能水平。大模型基准测试(Benchmark)的目标是通过设计合理的测试任务和数据集来对模型的能力进行全面、量化的评估。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。(一一)大)大模型模型基准基准测测试试的重要意义的重要意义 当前,基准测试已赋能大模型“建用管”全生命周期的多个阶段,在大模型研发、应用和管理中扮演重要角色,主要表现在:一是指引学术研究。过去一年,在 ChatGPT 的引领下,国内外的大模型企业也从最初摸索和尝试,逐渐步入研发和应用深水区。大模型研发迭代周期正在缩短,OpenAI 在一年时间内先后发布ChatGPT、GPT4、GPT-4V 等多款大模型,Meta 的 LLaMA 大模型一经发布便迅速带动了 Alpaca、Vicuna 等几十个开源大模型,形成“羊驼”开源大模型生态圈。在如此高的迭代频率下,大模型基准测试可以验证模型研发效果,快速挖掘大模型当前的不足与痛点问题,推动大模型能力持续提升。并且,大模型评测不应该是开发流程的终点,大模型基准测试体系研究报告(2024 年)3 而应该作为起点驱动模型开发。构建以能力提升为目标的评估(Enhancement-Oriented Evaluation)策略对大模型发展十分重要,建立“开发-部署-应用-测试”的闭环流程将缩短产品迭代周期。二是指导产品选型。近期,商业公司和研究机构等纷纷推出大模型榜单来对大模型的能力进行排序,大模型“打榜”逐渐成为各界关注的话题。国外大模型榜单 Open LLM Leaderboard 使用 4 个公开数据集对大模型进行综合测评。加州大学伯克利分校借鉴 Elo 评分系统推出了 Chatbot Arena,采用众包方式对大模型进行匿名、随机化的对战,得到模型的能力分级。斯坦福大学的 AlpacaEval 使用强大的语言模型(如 GPT-4)对大模型进行评估,提升评测效率。国内的OpenCompass、FlagEval、SuperCLUE、SuperBench 等分别发布大模型评测榜单,对中文大模型进行重点评测。大模型能力“榜单”确实能够在一定程度上反映出大模型能力,对于大模型的科学研究和能力提升提供正向借鉴意义。此外,在大模型的实际应用中,大模型的使用方需要综合考虑业务需求、花费成本、系统架构、安全要求等因素进行大模型的产品选型(POC)测试。大模型基准测试利用客观数据集对模型能力进行全面、客观的验证,这已经成为 POC 测试的主要落地方式,在大模型行业和应用落地中扮演重要角色。三是支撑行业应用。近期,“人工智能 ”行动的开展驱动了大模型在各应用场景中落地。大模型已经在金融、医疗、软件工程、教育、法律、科研、政务、电信、能源、工业、汽车、机器人等行业领域中取得一定的应用成果。同时,面向行业的大模型基准测试也取得大模型基准测试体系研究报告(2024 年)4 显著进展,目前已推出多种面向行业应用的评测数据集,例如金融领域的 FinEval,医疗领域的 PubMedQA,软件领域的 MBPP、HumanEval等。用户在进行大模型行业应用时,无论通过外部采购或自主研发的方式构建大模型能力,都需要利用基准测试对备选大模型进行量化评估,才能保障大模型的行业应用效果。四是辅助监管治理。随着大模型性能的不断提升,安全隐患和威胁的阴影始终如达摩克里斯之剑悬在人类头顶。近期,人工智能专家Geoffrey Hinton 在接受60 分钟公开采访中表示了对人工智能存在的安全隐患的担忧,并担心人类将会被其接管。目前随着 TOXIGEN、CVALUES 等数据集推出,对大模型的内容合规评测等已经取得一定进展,但在大模型的诚实性、自主意识和隐私保护等方面仍缺乏高质量基准。大模型基准测试对保障模型内容安全和能力监控发挥重要作用,可以引导其朝着更健康、更安全的方向发展,让大模型的成果惠及全人类。(二二)蓬勃发展的大)蓬勃发展的大模型模型基准基准测测试试 据中国信息通信研究院(以下简称“中国信通院”)统计,截止到 2023 年底,产学研各界已经报道 325 个大模型基准测试的相关数据集、方法和榜单等研究成果。其中,使用频次较高的评测数据集包括加州大学伯克利分校的 MMLU、Open AI 的 GSM8K、上海交通大学的 C-Eval 等;大模型基准测试体系和工具包括美国斯坦福大学的HELM 和 HEIM、上海 AI 实验室的 OpenCompass、北京智源研究院的 FlagEval、ChineseGLUE 的 SuperCLUE、清华大学的 SuperBench大模型基准测试体系研究报告(2024 年)5 等;大模型评测榜单包括Hugging Face推出的Open LLM Leaderboard、加州大学伯克利分校的 Chatbot Arena、斯坦福大学的 AlpacaEval 等。通过对现有成果进行梳理,观察到如下现象。一是从测试领域占比来看,如图 2 所示,由于大语言模型是当前产业应用的主流,因此针对大模型的通用语言类评测数据集最多,占比超过 50%,多模态大模型评测数据集数量仅占 13%。面向行业类的评测数据集 2023 年也迎来爆发式发展,其中 80%也针对语言类任务构建。而对于模型安全、可靠性和鲁棒性评测的数据集较少,需要持续投入。此外,当前对大模型产业应用效果的评测数据集和方法论相对缺乏,亟需产学研各界重点关注。来源:中国信息通信研究院 图 2 大模型基准测试领域占比分布 二是从发布时间来看,2023 年不但是大模型的涌现年,也是大模型基准测试的爆发年。如图 3 所示,仅 2023 年一年出现的大模型基准测试数据集的数量远远超过之前 5 年,达到 209 个。预计在 2024年,大模型基准测试数据集的数量仍会持续攀升。53!%7%6%语言行业多模态安全其它大模型基准测试体系研究报告(2024 年)6 来源:中国信息通信研究院 图 3 大模型基准测试数据集发布时间 三是从大模型基准测试数据集的使用频次来看,如表 1 所示,通过对 GPT-4、LLaMA 2、LLaMA 3、Gemini、Claudes 3、Mixtral 8x7B、GLM4 等大模型官方发布结果中使用的评测数据集进行统计,MMLU、GSM8K、ARC、HumanEval、Math、BBH、WinoGrande、HellaSwag等基准的使用频次较高,其中大部分为传统的自然语言处理评测数据集,并主要针对大模型的英文能力进行测试。对于多模态大模型,LLaVA-Bench、VisIT-Bench、MMBench 等使用较为广泛。表 1 代表性大模型官方发布结果中使用的评测数据集 模 模 模 模 模 模 模 GPT-4 LlaMA2 LlaMA3 Gemini Claude3 Mixtral8x7B GLM4 MMLU GSM8K ARC HumanEval Math BBH WinoGrande HellaSwag 050100150200250201820192020202120222023数量(个)年份(年)大模型基准测试体系研究报告(2024 年)7 MBPP DROP TriviaQA GPQA AGIEval PIQA MGSM NQ MGSM SQuAD BoolQ 四是从发布机构上来看,学术机构在此领域的研究中扮演了重要角色。如图 4 所示,清华大学和斯坦福大学位于发布评测数据集数量的第一名和第三名,其中清华大学的成果大多集中在 2023 年。美国艾伦人工智能研究所(AI2)由于在传统自然语言处理数据集上的贡献,仍然位居前列。谷歌、阿里巴巴、Meta 和腾讯成为上榜的四家企业。来源:中国信息通信研究院 图 4 大模型基准测试数据集发布机构排名 024681012141618数量发布机构大模型基准测试体系研究报告(2024 年)8 五是从发布国家来看,如图 5 所示,中美发布数量旗鼓相当,占比均为 47%左右。2023 年,国内大模型基准测试数据集“井喷式”发展,推出包括 C-Eval、CMMLU 等评测数据集 100 多个,在中文评测领域具有显著的影响力。虽然国内提出的基准数据集在数量上有明显提升,但与美国提出的基准测试数据集相比,在国际上的影响力仍然差距明显。来源:中国信息通信研究院 图 5 大模型基准测试数据集发布国家分布 六是从测试数据集开源状况来看,如图 6 所示,开源测试数据集更多,占比达到 69%,而闭源数据集仅占 31%。评测数据集开源对其推广影响很大,产学研各界只有充分获取数据才可以高效进行测试。但同时数据的开源会容易导致模型“作弊”的现象发生。因此,如何在保证数据充分开放的前提下,对模型的数据污染状况进行检测成为当前研究的热点。美国47%中国46%以色列2%德国2%印度1%新加坡1%日本1%美国中国以色列德国印度新加坡日本英国大模型基准测试体系研究报告(2024 年)9 来源:中国信息通信研究院 图 6 大模型基准测试数据集开源分布(三三)大大模型评测模型评测发展共性与差异发展共性与差异 当前人工智能测试已经由机器学习、深度学习测试时期进入大模型测试时期,未来还将迈向通用人工智能(AGI)测试时期。产学研各界推出的大模型基准测试数据集众多,这些数据集的构成和测试重点各不相同,但表现出一些共性:一是通用能力测试为主。目前产学研各界所发布的大模型基准测试数据集大都侧重于模型的通用能力,包括大模型理解、生成、推理、知识能力等,MMLU 和 GSM8K 等成为当前大模型最常用的评测基准,而近期面向行业和应用的评测数据集已得到产业界广泛关注。二是通过考试方式执行。虽然 Chatbot Arena 等采用“模型对战”的方式完成评测,但当前大模型基准测试主要仍以考试方式为主,通过在考题上的表现来衡量大模型能力。AGIEval、KoLA 等利用客观选择题评测大模型知识能力,PubMedQA 等通过问答题评测生成能力。三是测试数据构成类似。大模型基准测试的输入通常为测试数据,常见的测试数据类型包括单选、多选、问答等。为提升自主测试效率,开源69%未开源31%大模型基准测试体系研究报告(2024 年)1 数据集还会提供标准答案、Prompt 样例和测试脚本等。同时,评测数据集中通常还会包含一定量的模型微调数据来提升大模型表现。四是测试结果仍需主观评估。当测试题目为客观选择题,测试结果评估可以通过脚本高效执行。当测试题目为主观题或开放问答时,仍然需要人工主观评估。虽然大模型已经作为“裁判”参与结果评估,但据论文Large Language Models are not Fair Evaluators研究表明,使用 GPT-4 进行结果评估容易受到“答案顺序”等因素影响。除了上述共性外,大模型基准测试数据集也表现出一定差异性,主要为:一是评测数据数量上的差异,知识类考察数据集的题目数量通常会超过 1 万,例如 MMLU 和 C-Eval 的题目数量分别为 15858 和13948,而代码类评测数据集中题目数量较少,如 MBPP 和 HumanEval的题目数量仅为 974 和 164。二是评测环境上的差异,对语言大模型的评测通常以考试的方式进行,而对于 AI 智能体(AGENT)或具身智能系统的评测通常需要搭建仿真环境。三是评测目标上的差异,大模型的训练可分为预训练、监督式微调、强化学习训练等几个阶段,不同的评测数据集所针对的目标模型不相同。四是评测方法上不统一,根据提示工程中提供样例多少,大模型可通过 zero-shot、few-shot 等方式进行评测,但各大模型在评测方式上并不统一。大模型基准测试体系研究报告(2024 年)1 二、大模型基准测试现状分析 2023 年,大模型基准测试迎来飞速发展的一年,大模型的评测体系、数据集、方法、工具如雨后春笋般出现。本章对已发布的大模型基准测试成果进行简要介绍,主要分为评测体系、数据集和方法等,以梳理大模型基准测试的整体发展趋势,并探寻未来发展方向。(一)(一)大大模型模型基准基准测测试体系总体介绍试体系总体介绍 与传统认为 Benchmark 仅包含评测数据集不同,大模型基准测试体系包括关键四要素:测试指标体系、测试数据集、测试方法和测试工具。指标体系定义了“测什么?”,测试方法决定“如何测?”,测试数据集确定“用什么测?”,测试工具决定“如何执行?”。图 7 大模型基准测试体系构成 1.测试指标体系 在进行大模型基准测试时,首先需要确定测试的指标体系,明确评测的维度和对应指标。大模型评测的指标体系可以按照四层结构进行构建。测试场景定义了待测试模型的外在大模型基准测试体系研究报告(2024 年)1 环境条件的组合,如通用场景、专业场景、安全场景等。测试能力决定了模型的测试维度,如理解能力、生成能力、推理能力、长文本处理能力等。针对待测试的能力,可以通过多种任务完成测试。如语言大模型的理解能力可以重点考察在文本分类、情感分析、阅读理解、自然语言推理、语义歧义消解等任务中的表现。对于不同的测试任务,需要与不同的指标进行关联。如文本分类可以计算准确率、召回率等指标,而阅读理解可以利用准确率、F1 Scores、BLUE、ROUGE 等进行考察。2.测试数据集 按照大模型可处理的信息模态,可以将大模型分为语言大模型、多模态模型、语音大模型等。其中,语言大模型和多模态大模型的研究和应用最为广泛。语言大模型的输入和输出均为自然语言,多模态大模型的输入和输出为不同模态的数据。下面对语言大模型和多模态模型评测中常用数据集进行梳理和介绍。对语言大模型的通用能力进行评测需要考察理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用能力、可靠性、鲁棒性等。代表性的评测数据集如附录表 1 所示,包括 MMLU、BBH、GSM8K 等。对语言大模型的行业能力进行评测需要考察行业通用能力、行业知识能力、行业场景能力、行业安全能力等。代表性的评测数据集如附录表 2 所示,包括 FinEval、PubMedQA、JEC-QA 等。对语言大模型的应用能力进行评测需要考察大模型在智能客服、知识管理、数据分析、办公大模型基准测试体系研究报告(2024 年)1 助手、内容创作、网页助手、代码助手、任务规划、智能代理、具身智能等应用中的效果。代表性的评测数据集如附录表 3 所示,包括GAIA、APPS、AgentBench 等。对语言大模型的安全能力进行评测需要考察大模型内容安全、伦理安全、隐私安全、模型安全等,代表性的评测数据集如附录表 4 所示,包括 SafetyBench、TOXIGEN、JADE等。当前对多模态大模型的评测主要集中在通用能力,主要包括视觉问答、视觉推理、视觉处理、视觉描述、视觉生成、可靠性等。代表性评测数据集如附录表5所示,包括MMBench、LLaVA-Bench、POPE、OCRBench 等。3.测试方法 大模型基准测试方法的研究主要集中在大模型的整体评测流程或评测方式的创新。如图 8 所示,大模型的评测流程包括测试需求分析、测试环境准备、测试数据构建、基准测试执行、测试结果评估和测试结果展示等。本报告对每个环节涉及的内容进行介绍。来源:中国信息通信研究院 图 8 大模型基准测试流程 测试需求分析通常是大模型测试过程中的第一步,通过对测试需求进行全面和准确的覆盖,有助于确保测试活动的有效性和高效性。大模型测试需求分析需要完成以下任务:确定评测目的,预评估待测模型,测试体系设计,测试方案设计,测试输入(输出)分析,测试大模型基准测试体系研究报告(2024 年)1 可实施性分析等。测试环境准备是大模型测试的基础,需要搭建配套的软硬件平台保证测试顺利执行。首先,根据被测模型的实际性能要求需要搭建测试软硬件环境。其次,对于单一模型的少样本测试,可利用脚本完成测试,而对于多个模型的大数据量测试,需要使用测试框架,可将其部署在单一服务器或集群中。再者,对私有化部署大模型,需要将其部署在环境中。最后,可使用少量测试数据对测试环境功能进行验证。大模型评测数据可以通过人工构建、题目自动化扩充和智能算法生成三种方式进行定期补充或更新。人工构建方式主要是通过人工采集、标注的方式构建测试数据。面向大模型的测试数据的构建流程一般包括方案设计、数据采集、数据标注、数据清洗、数据增强、数据规范化和数据存储等环节。在实际大模型评测中,应针对模型的薄弱点定期进行评测数据集的更新工作,以保证评测数据的有效性。题目自动扩充主要利用“模板”化信息提取算法或对抗样本生成对题库中题目的可变量进行“替换”,从而“衍生”生成相似题目。其在一定程度上防止大模型通过“刷题”和“记题”方式获取更高的分数,并验证大模型的鲁棒性。微软提出动态测试框架 DyVal,利用有向无环图动态生成测试数据,减少测试数据被大模型记忆的可能。PromptBench 对大模型的提示工程词进行字符级别、单词级别、句子级别和语义级别的黑盒攻击,来对语言大模型的鲁棒性进行评测。智能算法生成主要是利用一些先进的人工智能技术(如大模型)自动化生成一定量的新题目。目前基于大模型的智能出题已有实际的应用范大模型基准测试体系研究报告(2024 年)1 例,例如考试星推出的智能考试命题服务中,使用大模型对一段长文本进行自动化出题,涉及题型包括单选、多选、问答等。香港中文大学推出了数学推理问题的合成数据方法 MathGenie,通过训练一个反向翻译模型对种子试题集的增广解决方案进行反演,从而得到更多的数学题目。目前智能算法生成的题目质量很难保证,需要人工进行核验,以确保测试题目质量。为了保证测试结果的公正性,大模型评测数据集应该提供统一、标准的提示工程(Prompt)范例,支持 Zero-shot、Few-Shot 等多种评测模式。通过优化提示工程词内容可以提升大模型的表现,但为了保证结果的可比性,推荐使用评测数据集所提供的提示工程样例,并且所有的大模型所使用的评测提示工程词应该保持一致。测试执行阶段需要将测试数据输入被测模型,并观察被测模型的输出结果。从执行方式上,根据实际需求(测试数据量、测试成本等)可使用单点和分布式两种方式执行。单点执行在单台服务器上将测试数据依次输入大模型,并收集大模型的输出结果。分布式执行通过中心节点对测试任务和数据集进行切分,再分发至单点服务器上分布式执行,最后通过中心节点对大模型输出结果进行汇总并统计,测试成本相对较高。对于大模型生成的结果需要使用合理的评估指标进行衡量,以确保生成内容的正确性和准确性。大模型生成内容的评估方式可以分为自动化评估和人工评估。传统自动化评估通过计算特定指标完成模型生成内容和标准答案的对比。对客观类评测题目(如选择题)的结果大模型基准测试体系研究报告(2024 年)1 评估相对简单,若模型的回答不满足提示工程词要求,会采取特定的策略(如正则匹配)完成答案的对比。由于大模型生成内容较为灵活,对主观类题目(如问答题)进行自动化评估难度较高。若生成内容较为规范,如机器翻译和文本摘要等,可以计算 BLEU、ROUGE 等指标。但对于较复杂或专业的生成内容,需要专家对结果的正确性和准确性进行人工评判,其对评估人员资质和具体评测方式等有一定要求,如评估人员需要具有专业化背景、评估人员数量要充足等。现有研究尝试将大模型作为自动化结果评估工具来对其它模型的生成内容质量进行评估,例如 AlpacaEval 等采用 GPT-4 对其它模型的生成结果进行质量分级。根据Benchmarking Foundation Models with Language-Model-as-an-Examiner等论文结果,这种评估方式有望成为人工评估的有效替代。其按照技术原理可分为基于提示工程词和模型微调两种方式。前者一般会设计高质量的提示词,利用大模型来对生成内容进行打分。该方式可通过优化提示词内容或构建大模型裁判网络来提升评估效果。中科院在论文Wider and deeper llm networks are fairer llm evaluators 中以大模型作为神经元搭建“裁判”网络 WideDeep,人机评估一致率达到 93%。基于模型微调的方式主要利用相关数据对大模型进行训练以提升评判的准确率。代表性的成果包括清华大学的CRITIQUELLM和北京智源研究院的JudgeLM等。大模型基准测试结果可以通过测试报告、模型榜单、雷达图、柱状图等多种形式进行展示。大模型测试报告中需要包含评测目标、数据集描述、测试任务描述、测试环境描述、评估指标、量化结果、可大模型基准测试体系研究报告(2024 年)1 视化结果、对比分析、评测结论、建议提升方向、错误样例等内容。4.测试工具 测试工具是测试方法的落地实践方式,是提升大模型评测效率的重要手段。大模型基准测试工具通常需要支持数据集管理、模型库管理、API 管理、测试任务分发、测试指标计算、测试结果分析、测试结果展示等多种基础功能。图 9 展示了由卡塔尔计算研究所所提出的开源大模型基准测试评测工具 LLMeBench 原理图。从图中可以发现,其包含数据加载模块、提示工程词模块、模型执行模块、后处理模块和结果评估模块,与大模型的基准测试流程基本一致。当前大模型的基准测试工具在测试数据集构建和测试结果评估阶段仍然需要人工参与,全自动化的基准测试工具仍是产业界的迫切需求。来源:LLMeBench:A Flexible Framework for Accelerating LLMs Benchmarking 图 9 大模型基准测试工具 LLMeBench 框架图(二二)代表性的大代表性的大模型模型基准基准测测试体系试体系 当前已发布的评测榜单背后均有相应的评测体系和方法,国内外知名度较高的大模型基准测试体系包括:1.HELM 大模型基准测试体系研究报告(2024 年)1 HELM(Holistic Evaluation of Language Models)是由斯坦福大学在2022年推出的大模型评测体系。该体系主要包括了场景(Scenarios)、适配(Adaptation)和指标(Metrics)三个核心模块,每次评测都需要“自顶而下”指定一个场景、一个适配模型的提示工程词和一个或多个指标来进行。如图 10 所示,HELM 使用了几十个场景和多个指标的核心集完成大模型评测,场景涉及问答、信息检索、摘要、毒性检测等多种典型评测任务,指标包括准确性、校准、鲁棒性、公平性、偏差、毒性、效率等。来源:Holistic Evaluation of Language Models 图 10 大模型评测基准 HELM 原理图 2.HEIM HEIM(Holistic Evaluation of Text-to-Image Models)是由斯坦福大学在 2023 年推出的多模态大模型评测体系。与之前文本生成图像的评测主要关注文本图像对齐和图像质量不同,HEIM 定义包括文本图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率在内的 12 个维度。HEIM 确定包含大模型基准测试体系研究报告(2024 年)1 这些维度的 62 个场景,并在这个场景上评测了 26 个最先进的文本到图像的生成模型。3.HRS-Bench HRS-Bench(Holistic Reliable Scalable Bench)是由沙特的 KAUST在 2023 年推出的全面、可靠、可扩展的多模态大模型评测体系。与之前文本生成图像仅考察有限维度不同,HRS-Bench 重点评测大模型的 13 种技能,可分为准确率、鲁棒性、泛化性、公平性和偏见 5 个类别,覆盖了包括动物、交通、食物、时尚等 50 多个场景。4.OpenCompass OpenCompass(司南)是由上海 AI 实验室推出的开源、高效、全面的评测大模型体系及开放平台,其包括评测工具 CompassKit、数据集社区 CompassHub 和评测榜单 CompassRank。在已发布的评测榜单中,对语言大模型主要考察语言、知识、推理、数学、代码和智能体方面的表现。对多模态大模型主要评测在 MMBench、MME 等数据集上的指标。OpenCompass 提供了开源大模型基准测试工具,已集成大量的开源大模型和闭源商业化 API,在产业界影响力较大。5.FlagEval FlagEval(天秤)是由北京智源研究院推出的大模型评测体系及开放平台,其旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型性能,同时探索提升评测的效率和客观性的新方法。FlagEval 通过构建“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,包含 6 大评测任务,近 30大模型基准测试体系研究报告(2024 年)2 个评测数据集和超 10 万道评测题目。在 FlagEval 已发布的榜单中,其主要通过中、英文的主、客观题目对大模型进行评测,具体任务包括选择问答和文本分类等。6.SuperCLUE SuperCLUE 是由 ChineseCLUE 团队提出的一个针对中文大模型的通用、综合性测评基准。其评测范围包括模型的基础能力、专业能力和中文特性,基础能力包括语言理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演和安全。目前提供的基准榜单包括 OPEN 多轮开放式问题评测、OPT 三大能力客观题评测、琅琊榜匿名对战基准、Agent 智能体能力评估、Safety 多轮对抗安全评估等。除此之外,还针对长文本、角色扮演、搜索增强、工业领域、视频质量、代码生成、数学推理、汽车等领域单独发布大模型能力榜单。(三三)问题与挑战问题与挑战 虽然当前大模型基准测试发展迅速,涉及内容范围广泛,但仍存在一些挑战性问题:1.建立规范化的评测体系 业界对于大模型应测哪些内容、如何测、使用哪些评测集并没有统一的规范,这容易导致大模型评测榜单结果存在差异,很难精确对比大模型能力。例如,在 2023 年底,谷歌发布 Gemini 大模型,并表示在 MMLU 上的得分率高于 GPT-4。但通过分析谷歌发布的技术报告Gemini:A Family of Highly Capable Multimodal Models,Gemini 大模型基准测试体系研究报告(2024 年)2 Ultra 采用“CoT32”(使用了思维链提示技巧,尝试 32 次并从中选择最好结果)的测试方法,这与 GPT-4 采用的“Few-Shots”明显不同,因此评测结果的公正性受到质疑。2.构建面向产业应用的基准 由于行业需求经常高度定制和专业化,仅测试大模型的通用能力无法充分评估模型在特定行业中的应用效果。当前一些行业仍然缺乏公开的高质量评测数据集,这加大了对大模型在实际场景中进行全面评测的难度。例如在 Meta 发表的论文 GAIA:A Benchmark for General AI Assistants中,在 AI 助手的评测基准 GAIA 上,人类回答问题的准确率为 92%,而配备了插件的 GPT-4 只有 15%,这说明大模型在实际应用场景上仍然有较大的提升空间。3.模型安全能力评估 当前大型模型在常见问题上的回答稳定性较好,但在特定敏感问题或某些“边缘场景”下可能会存在风险,目前国内外针对模型风险的评测基准数量仍然较少。例如,近期大连理工大学联合多家机构发表论文 Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases,重点对多模态模型在自动驾驶“边缘场景”中的表现进行评估。4.评测结果与用户体验的差异 当前大模型的评测大多对通用知识能力进行考察,对用户的实际使用体验关注度不够,这容易导致用户实际反馈与模型测试排名并不一致,如 Open LLM Leaderboard 和 Chatbot Arena 的评测结果在大模大模型基准测试体系研究报告(2024 年)2 型的排名上有明显的差异。在清华大学发表的论文Understanding User Experience in Large Language Model Interactions中,作者表示当前缺少面向用户体验评估的 Benchmark。5.测试数据集的“污染”问题 据美国佐治亚理工大学的论文Investigating Data Contamination in Modern Benchmarks for Large Language Models,当前大模型的测试数据容易被包含在训练数据中进行训练,造成数据“污染”问题。产学研各界需要研究数据“污染”的检测手段,降低大模型“刷榜”对评测结果的公正性和可信度产生的影响。6.评测数据集的“饱和”使用问题 目前 MMLU、GSM8K 等高质量评测数据已经被大模型评测多次,准确率已经达到一定水平,产学研各界应对评测数据集的选择和构建形成更加科学的方法论。大模型基准测试体系研究报告(2024 年)2 三、大模型基准测试体系框架 大模型基准测试体系涵盖大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。大模型基准测试体系的建设和完善,旨在形成一个全面、客观、规范的大模型基准测试的方法论,从而保障大模型评测结果的公正性和客观性。当前大模型的基准测试偏重模型的通用能力,产业界也亟需面向具体场景和实际落地效果的模型评测能力。针对上述问题,中国信通院从指标体系、测试方法、测试数据集和测试工具四个维度出发,构建“方升”大模型基准测试体系,重点面向产业应用效果进行评估,并且推出自适应动态测试方法,努力保证评测结果的公正性和科学性。(一一)“方升方升”大大模型模型基准基准测测试体系试体系 为提供大模型基准测试体系的规范化建设思路,2023 年底,中国信通院发布“方升”大模型基准测试体系。“方升”体系的发布,由北京智源研究院、认知智能全国重点实验室、天津大学和中国信通院共同见证。此外,国网智能电网研究院、首都之窗、天津大学、中国电信研究院、中国联通软件研究院、华为、甲骨易、海天瑞声、东方财富 9 家单位成为“方升”大模型基准测试首批合作伙伴。如图 11 显示,“方升”测试体系涵盖基准测试的四个关键要素,即指标体系、测试方法、测试数据集和测试工具。其中测试能力主要规定了测试维度与指标,其由“三横一纵”的框架构成,“三横”自顶至下依次为大模型的行业能力测试(Industry-Oriented Testing,IOT)、应用能力测试(Application-Oriented Testing,AOT)和通用能力测试(General-大模型基准测试体系研究报告(2024 年)2 Oriented Testing,GOT),而“一纵”为大模型的安全能力测试,其在行业、应用和通用能力中都会涉及。显然,“方升”测试体系将从行业、应用、通用和安全能力四个维度全面评估大模型的表现,特别其将重点评估行业和应用能力这两个维度,这对大模型的产业落地具有重要参考价值。来源:中国信息通信研究院 图 1“方升”大模型基准测试体系 构建一个高质量的评测基准,不能仅考虑数据集和指标,“方升”测试体系除了对大模型的指标体系进行科学化设计,还对测试方法、测试数据集和测试工具提供规范化的建设思路。在指标体系中,“方升”测试体系除了关注通用能力和安全能力,还重点考察大模型在行业和实际应用中的表现。为保证测试结果的科学性和客观性,大模型的评测需要保证环境和输入的一致性,并在测试方法上进行精细化设计,以满足高效、精准的评测目标。在评测数据集方面,应该满足一定质量要求,如充分性、多样性、新颖性、区分度、合理性、可追溯性等,才能从源头上保证测试真实有效。在评测工具方面,应该进行合理的模块化设计,满足功能和性能要求,支持端到端自动化执行测大模型基准测试体系研究报告(2024 年)2 试。通过对测试数据自动构建、测试结果自动评估、测试分布式执行等关键环节进行探索,提升大模型基准测试的效率。面向大模型的通用能力测试(GOT)在产学研各界已得到蓬勃的发展,“方升”测试体系将全面吸收产学研各界的优秀成果,并在评测大模型的生成能力和内容可靠性等方面进行重点探索,打造全面和坚实的通用能力测试底座。“方升”测试体系已具备针对大语言模型的理解能力、生成能力、推理能力、知识能力、学科能力、多语言能力、长文本能力、思维链能力、角色扮演能力、工具使用等方面的评测,针对多模态大模型,联合产学研机构建立视觉问答、视觉推理、视觉生成等能力的评测数据集。在“方升”测试体系中,已对大模型的通用能力测试进行全面梳理,形成的关联关系,从而构建全面且体系化的通用能力评测基础底座。“方升”测试体系在大模型行业测试(IOT)领域进行重点布局,助力大模型赋能千行百业。在大模型实际落地过程中,通常会用行业数据对基础大模型进行微调得到行业大模型,而后将行业大模型应用在实际业务中。然而,由于每个行业的需求和应用场景不同,因此评测方案和数据集也不相同,评测难度明显提升。在“方升”测试体系中,已针对多个重点行业中的典型应用场景进行梳理,形成“通用-知识-场景-安全”的多维度评测方案,并在政务、电信等行业进行验证。当前“方升”测试体系中涵盖包括金融、医疗、工程、教育、法律、科研、设计、汽车、机器人等多个行业的评测数据集,并在政务、电信、能源等领域与产学研机构共建评测数据集,助力大模型行业能力评估。大模型基准测试体系研究报告(2024 年)2 大模型的实际应用通常限定在具体场景和特定任务,“方升”测试体系面向大模型的应用测试(AOT)进行重点探索,解决大模型业务落地的“最后一公里”问题。当前大模型常见的落地场景包括智能客服、知识管理、数据分析、办公助手、内容创作、代码生成等。在上述领域中,为了保证大模型生成结果的准确性,通常会利用外挂知识库的方式来进行技术落地。随着大模型能力的提升,可利用外部工具完成更为复杂的任务,例如网络购物、数据库操作等,这需要大模型智能体(AGENT)技术的支撑。“方升”测试体系将针对智能客服、知识管理、RAG、数据分析、代码助手、办公助手、AGENT、具身智能等多个重点应用领域的测试方法进行研究,并通过设计合理的评测指标对实际任务的落地效果进行评估,为大模型应用效果评估遇到的评测数据缺乏问题提供解决方案,全面衡量大模型在实际业务落地中发挥的作用。安全能力是保障大模型实际落地应用的重要基石,已经成为人工智能领域的核心议题。AI Safety Benchmark 着力打造公平公正、面向产业应用的大模型安全能力测试体系,为大模型产业安全健康发展保驾护航。一是数据集层面,构建完备的安全测评数据集,涵盖 40 余万条数据,26 个细粒度安全类别和 4 种数据模态。从内容安全、数据安全、科技伦理等方面综合评估大模型安全能力。其中,内容安全涉及价值观、违法违规等;数据安全包括个人隐私、企业机密等;科技伦理包括歧视偏见、心理健康、AI 意识等。二是评测指标层面,设置科学的测评指标,从安全性和负责任性两个角度分别衡量大模型的性大模型基准测试体系研究报告(2024 年)2 能。其中,安全性分数主要关注模型输出的绝对安全性,负责任性分数更加关注模型回答的正向积极性和与人类价值对齐的情况。(二二)“方升方升”自适应动态自适应动态测测试方法试方法 来源:中国信息通信研究院 图 2 自适应动态测试方法原理图“方升”测试体系中的指标部分通过对大模型测试领域和指标的全领域梳理,从方法论上指导用户更加精准且科学的完成测试。除此之外,为了解决测试数据集管理难、大模型测试“刷榜”等问题,“方升”测试体系提出自适应动态测试(Adaptive Dynamic Testing,ADT)方法对大模型进行评测,以保证大模型基准测试能高质、高准、高效的完成。如图 12 所示,自适应动态测试方法包含三个关键部分,即测试数据标签化管理、动态测试数据库和高质量测试数据抽样算法。其中测试数据标签化管理重点解决测试数据集格式繁多、难管理问题,动态测试数据库主要解决大模型测试“刷榜”和评测数据“静态化”问大模型基准测试体系研究报告(2024 年)2 题,高质量测试数据抽样算法主要解决大模型的精准缺陷挖掘困难高、测试效率较低等问题。自适应动态测试方法的关键特性包括以下几方面:1.全量筛选,测试标签匹配化 来源:中国信息通信研究院 图 3 大模型基准测试标签体系 在大模型的实际测试过程中,测试人员很难直接获取相关测试数据和指标,需要花费大量的人力去搜集和整理数据,测试门槛高。并且当测试题库中的测试题目达到百万量级,该如何管理这些数据是一个难点,直接影响测试数据的价值。“方升”测试体系对全量测试数据进行“标签化”处理,完成测试数据精准“画像”。如图 13 所示,“方升”测试体系中的测试数据会赋予特定的“测试标签”,例如所属数据集、测试行业、测试领域、测试任务、测试能力、题目难度等。通过多维度的数据标签刻画,充分提升测试数据的利用效率。“方升”测试体系希望通过多层次的梳理和筛选,在构建全面、统一的测试基准同时,可以自动化推荐基准测试的“数据”和“指标”,从而降低大模型基准测试的“门槛”。测试人员在实际测试时,可以参照“方升”测试体系“自顶至下”依次在“行业”、“应用”和“通用”中选择需要的测试维度,大模型基准测试体系研究报告(2024 年)2 “方升”测试体系可以根据用户的选择自动化推荐测试所需的“数据”和“指标”。2.动态更新,测试题库实时化 为了防止大模型测试的“刷榜”问题,“方升”测试体系的底层测试数据库采用动态方式构建,保证每次参与测试题目的都不相同,以解决存在题目封闭、考题过时、模型作弊等问题。动态测试数据库中的题目会通过人工补充、题目自生成和智能算法生成三种方式定期进行扩充,从而保证每次测试时都有一定占比的题目从未用于大模型测试。这些数据在一定时间内不会进行公开,后续会根据产业需求进行开放。测试过程中,会参考已有测试结果,通过人工方式定期补充测试数据,对已发现的大模型薄弱能力进行反复测试。题目自生成方式主要针对题库中已有题目“生成”出一些评测题目,从而防止大模型通过“刷题”和“记题”等方式提升模型表现。智能算法生成常利用高质量提示工程驱动大模型自动化生成一定量的测试题目,但这些题目的质量很难保证,需要人工对大模型生成题目进行核验。3.灵活抽样,测试方案定制化 为了避免大模型测试据集质量不高的问题,“方升”测试体系采用全量测试、模块测试和抽样测试三种不同模式对大模型进行评测。全量测试针对动态测试数据库中所有题目进行遍历测试,其测试覆盖领域全面,但测试的成本高、周期长。并且如果大模型已经存在“刷题”等问题,部分测试题目已经失效,重复测试意义降低。模块测试即从动态测试数据库中按照特定维度选择特定测试题目进行评测,其针对大模型基准测试体系研究报告(2024 年)3 大模型的特定能力进行评估,测试方式较为灵活,定制化较强,但无法表征大模型的全面能力,在特定的业务需求下可以执行。抽样测试即从题库中动态选择题目进行测试,该方法仅用少量有效数据即完成大模型的测试,避免很多无意义的测试过程,测试成本低、效率高、综合性强。如何从海量数据集中选择高质量测试数据是一个难点,产业界缺少成熟的方案。高质量评测数据集需要标准且量化的定义,如满足充分性、多样性、新颖性、区分度、合理性、有效性、追溯性等多项要求。通过定义函数的目标函数,量化制定每一个质量维度的权重,最终使用智能算法完成高质量测试数据集抽取。抽样算法可选择随机抽样或定向抽样,也可将数据集质量作为优化目标,使用演进类等优化算法反复迭代计算得到高质量测试数据集。由于每次使用的测试题目均不相同,使用抽样数据进行测试可以在一定程度上避免大模型“刷题”对测试结果的影响。(三三)“方升方升”大大模型测模型测试体系实践试体系实践 为全面和深入认知大语言模型能力及其缺陷,跟踪国内外大语言模型发展态势,并验证“方升”大模型基准测试体系的有效性,中国信通院于 2024 年初启动“方升”首轮试评测,实际测试执行时间为2 月 19 日至 2 月 29 日。本次评测基于“方升”测试体系,针对大模型的通用、行业、应用和安全能力进行全方位评测。被测对象为 30 多家国内外主流的闭源(商业)大模型和开源大模型,如 GPT-4、Qwen-72B-Chat、LLaMA2 等。本次评测向参测方提供大模型评测报告及提升建议,并展示少量的错误样例,以推动大语言模型健康发展。大模型基准测试体系研究报告(2024 年)3 来源:中国信息通信研究院 图 4“方升”大模型首轮试评测模式 如图 14 所示,“方升”大模型首轮试评测提供综合评测和专项评测两种测试模式,其中综合评测是必测项目,专项评测是选测项目。综合测试主要针对大模型的通用、行业、应用和安全能力进行全面评估以衡量大模型的综合能力,专项评测则对于大模型的指定能力进行测试,例如面向特定行业或场景的定向评估。为了提升大模型测试效率,本次综合测试的评测数据集是通过动态测试数据库中定向抽取所构建,这种动态抽取题库的方式保证每次评测题目的新颖性,一定程度上可规避模型“刷榜”的问题。后续测试会增加抽样的次数以保证结果的客观性。专项评测主要对于参侧方所选择的评测维度进行全量精细化评测,以全面衡量大模型在该领域内的客观表现。“方升”大模型首轮试评测中的综合评测题目从包含 203 万的评测数据库中定向抽取构建,全面覆盖通用、行业、应用、安全 4 个一级测试维度,通用、行业、应用的评测题目数量占比大约为 40%、40%大模型基准测试体系研究报告(2024 年)3 和 20%,安全采用 AI Safety Benchmark 专项测试。测试题型包含单选、多选、填空、判断、问答等多种形式,其中客观题占比大约为 90%。本次评测的高、中和低频测试题目的数量占比约为 10%、40%和 50%,其中低频测试题目为新构建的测试题目,从未用于大模型的评测,而中频测试题目为测试次数较少的题目。本次评测中文测试题目数大约为 70%,英文测试题目为 30%,即保证了国内的主要应用市场,也衡量大模型的多语言处理能力。从题目的难易度上来说,难题、中等题、简单题数目的比例为30%、40%和30%,题目难易的分级为利用GPT4-Turbo 进行自动化识别得到。本次评测被测对象为 30 家国内外主流的闭源(商业)大模型和开源大模型,其中闭源(商业)大模型 12 个,开源大模型 18 个。在12 个闭源大模型中,除 GPT-4-Trubo 和 GPT-3.5-Turbo 外,10 个为国内商业大模型。所评测开源大模型中既包含国外大模型 LLaMA2、Vicuna、Zephyr,也包括国内的大模型 Qwen、ChatGLM、Baichuan、Yi、InternLM、DeepSeek、BlueLM 等。闭源商业大模型主要是通过API 的模式参与测试。在选择开源大模型时,考虑了不同的参数量与版本发布时间。需要注意,本报告仅提供开源大模型的评测结果,且本次评测结果只能从特定维度来表征大模型的能力,不代表各大模型产品的全面能力,仅供研究分析使用。图 15 展示了开源大模型的评测结果,从其可以发现开源大模型的表现除了依赖参数量,还与模型版本迭代时间相关。从排名来看,Qwen-72B-Chat、Yi-34B-Chat、InternLM2-Chat-20B、Qwen-14B-Chat大模型基准测试体系研究报告(2024 年)3 分别占据了前几名,余下的开源大模型参数量基本都小于 10B,这说明大模型的参数量在一定程度上影响大模型的表现。但大模型的能力不仅仅依赖于模型的参数量,还与训练技术和数据质量密切相关。大模型技术迭代速度快,往往两三个月内即有新版本出现,在模型参数量基本不变的情况下,新版本的大模型能力对比上一版本往往明显增强,有的甚至发生跨越式的提升,例如 Qwen-7B 在本次评测中仅为25.8 分,但 Qwen1.5-7B 的分数却显著提升至 51.8 分。且发布时间较晚的 InternLM2-1.8B 和 Qwen-1.8B 在参数量大大减少的情况下,整体表现甚至优于部分参数量为 6B 或 7B 的大模型。来源:中国信息通信研究院 图 15 开源大模型评测榜单结果 需要注意的是,本次评测结果仅从特定维度对大模型能力进行考察。在实际的商业应用选型中,并不能仅考虑能力这一个因素,还需要结合应用场景、部署成本、推理时延、自主可控、用户体验等其他25.125.525.727.332.636.337.237.539.740.143.748.551.855.956.957.158.364.1020406080Llama2-7BVicuna-7BQwen-7BYi-6BQwen-1.8BBlueLM-7BBaichuan2-7BZephyr-7B-InternLM2-1.8BDeepSeek-7B-ChatChatGLM3-6BBaichuan2-13B-ChatQwen1.5-7BInternLM2-7BQwen-14B-ChatInternLM2-Chat-20BYi-34B-ChatQwen-72B-Chat大模型基准测试体系研究报告(2024 年)3 因素,通过综合决策选择最适配的大模型。例如,开源大模型 Qwen-72B-Chat 与 Qwen-1.8B 相比,Qwen-72B-Chat 在能力上的优势十分明显,但在部署成本上,Qwen-1.8B 的部署难度更低。除此之外,在选择商业大模型时,还要重点考虑价格以及是否支持私有化部署等因素。大模型基准测试体系研究报告(2024 年)3 四、总结与展望 伴随着大模型基准测试的蓬勃发展,针对大模型各个维度的测试方法如雨后春笋般出现。大模型基准测试不应该仅仅作为大模型研发的终点,以发布测试榜单为目的,更重要的是切实发现大模型问题,驱动大模型能力的提升,指导大模型的研究方向和应用路线。因此,产学研各界应该在探索新的测试方法、构建自动化测试平台以及共享高质量评测数据集等方面协同发力。未来,对 AGI 进行全方位、科学化的评估,将成为人工智能领域亟待解决的重要问题。(一)(一)形成形成面向面向产业产业应用的应用的大大模型模型评测评测体系体系 随着人工智能技术的不断发展,大模型的应用日益广泛,为各行各业带来了巨大的变革和可能性。在金融、医疗、法律、交通、教育等各个领域,大模型展现出了巨大的应用潜力,有望提升工作效率,优化应用效果。此外,基于大模型的 AI 原生应用也逐渐进入人们的视野,大模型不仅能完成智能客服、知识管理、数据分析等简单任务,还可借助外部工具助力人类进行网络购物、旅行规划、餐馆预定等复杂活动。然而,由于当前产业应用数据大多在行业用户的手中。因此,虽然行业测评基准已初步建立,但面向大模型应用评测的评测数据集仍较为缺乏。随着“人工智能 ”行动的开展,各行业将以大模型实际落地的效果为评估目标,形成不同行业和应用效果评估的体系和方法论,积极建立面向产业场景化应用的评测数据集,探索面向行业和场景化应用的新型评测方法,切实推动大模型基准测试在行业场景中进行落地,大模型基准测试体系研究报告(2024 年)3 全面正向驱动大模型的发展与应用。(二)(二)构建超构建超自动化自动化的大的大模型模型基准基准测测试平台试平台 大模型基准测试的流程包括测试需求分析、测试环境准备、测试数据构建、基准测试执行、测试结果评估、测试结果展示等。其中,测试数据准备和测试结果评估这两步均需要投入大量人力,工作繁琐。并且,大基准测试执行可通过单点、分布式等方式进行,不同的硬件环境将直接影响模型的评测效率。由于评测结果会直接指引下一步研发方向,因此基准测试的自动化、工程化和批量化处理非常关键,可直接决定大模型整体的迭代效率。如何全自动化地完成大模型的测试、快速挖掘大模型缺陷、降低测试人力的投入是该领域值得深入研究的问题。基准测试不应该仅作为 AI 应用开发的终点,而是要成为一个新起点,驱动大模型的能力持续提升。未来将会出现企业级的自动化大模型基准测试平台,保证从测试需求分析到测试结果统计的全流程质量把控。其不仅需要具备测试任务高效分发、分布式批量执行、测试结果自动统计等基础功能,还应该支持流程中的测试数据构建和测试结果评估等工作。例如,当前自动生成的测试数据质量很难保证,需要人工进行复核,上述操作可以在平台页面上完成。测试平台中可以集成已训练好的“裁判”大模型,助力大模型生成内容的正确性评估,降低评估的人力成本。(三)(三)探索探索 AGI 等先进人工智能的等先进人工智能的评测评测技术技术 大模型基准测试体系研究报告(2024 年)3 人工智能技术发展迅速,大模型、RAG、AGENT、具身智能、AGI 等新概念和新技术层出不穷。大模型基准测试作为研究较为深入的领域,将带动其他新技术的研究。当前虽然 AGI 仍未有明确的定义,但针对 AGI 的探索性评测研究已有初步成果。例如微软发布论文通用人工智能的火花:GPT-4 的早期实验,通过数学、编程、视觉、医学、法律、心理学等复杂度较高的任务证明 GPT-4 已经进入AGI 的早期阶段。北京通用人工智能研究院发布通智测试:通用人工智能具身物理与社会测试评级系统,提出一种基于能力和价值维度的 AGI 的评测方法。中国科学院和美国俄亥俄州立大学等先后推出 AGIBench 和 MMMU 评测数据集,从多模态、多学科、多粒度等维度衡量大模型距离 AGI 的差距。虽然当前 AGI 的发展仍然处于初期阶段,但通过基准测试的研究,可以为未来 AGI 的发展方向提供思路,并对 AGI 的能力进行监控以指引其正向发展。大模型基准测试体系研究报告(2024 年)3 附录附录 附表 1 语言大模型通用能力的代表性评测数据集 基准名称 评测目标 国家 时间 题目类型 MMLU 理解、知识 美国 2021 客观 C-Eval 理解、知识 中国 2023 客观 CMMLU 理解、知识 中国 2023 客观 MT-Bench 生成(对话)美国 2022 主观 MT-Bench-101 生成(对话)中国 2024 主观 AlpacaEval 生成(对话)美国 2023 主观 Lmsys-chat-1m 生成(对话)美国 2023 主观 DialogSum 生成(摘要)中国 2021 主观 LCSTS 生成(摘要)中国 2015 主观 StoryCloze 推理能力 美国 2016 客观 BBH 推理能力 美国 2022 客观 GSM8K 推理能力 美国 2021 客观 CMATH 推理能力 中国 2023 客观 MATHVISTA 推理能力 中国 2023 客观 AGIEval 知识能力 美国 2023 客观 KoLA 知识能力 中国 2023 主观 SOCKET 知识能力 美国 2023 主观 GAOKAO 学科能力 中国 2023 主观/客观 M3Exam 学科能力 中国 2024 主观/客观 M3KE 学科能力 中国 2023 客观 XTREME 多语言 美国 2020 主观 MEGA 多语言 美国 2023 主观 L-EVAL 长文本 中国 2023 主观 LongBench 长文本 中国 2023 主观 CharacterEval 角色扮演 中国 2023 主观/客观 大模型基准测试体系研究报告(2024 年)3 ToolQA 工具使用 美国 2023 主观 TruthfulQA 可靠性 英国 2022 主观/客观 UHGEval 可靠性 中国 2023 主观/客观 PromptBench 鲁棒性 中国 2023 主观 附表 2 语言大模型行业能力的代表性评测数据集 基准名称 行业 国家 时间 题目类型 PIXIU 金融 中国 2023 主观/客观 FinEval 金融 中国 2023 主观/客观 FINANCEBENCH 金融 美国 2023 主观 PubMedQA 医疗 美国 2019 主观/客观 MedQA 医疗 美国 2021 主观 CMExam 医疗 中国 2023 主观/客观 JEC-QA 法律 中国 2020 主观/客观 CUAD 法律 美国 2021 主观 LAiW 法律 中国 2023 主观 LegalBench 法律 美国 2023 主观/客观 DevOps-Eval 软件 中国 2023 客观 LogBench 软件 中国 2023 客观 OpsEval 软件 中国 2023 主观/客观 SciEval 科研 中国 2024 主观/客观 SCIBENCH 科研 美国 2023 客观 SciQA 科研 德国 2023 客观 ChemLLMBench 科研 美国 2023 客观 NetEval 通信 中国 2023 客观 TeleQnA 通信 中国 2023 客观 CGAEval 政务 中国 2023 主观/客观 NuclearQA 能源 美国 2023 主观 CloudEval-YAML 互联网 中国 2023 主观 大模型基准测试体系研究报告(2024 年)4 MSQA 互联网 美国 2023 主观 battery-device-data-qa 工业 英国 2023 主观 GameEval 游戏 中国 2023 主观 AvalonBench 游戏 美国 2023 主观 附表 3 语言大模型应用能力的代表性评测数据集 基准名称 应用场景 国家 时间 题目类型 GAIA 智能助手 美国 2023 主观/客观 CFBenchmark 智能助手 中国 2023 主观/客观 RGB 知识管理 中国 2023 主观 CRUD-RAG 知识管理 中国 2024 主观 MMC-Benchmark 数据分析 美国 2023 客观 QTSUMM 数据分析 美国 2023 主观/客观 TableQAEval 数据分析 中国 2023 主观 MBPP 代码助手 美国 2021 主观 APPS 代码助手 美国 2021 主观 HumanEval 代码助手 美国 2021 主观 WikiSQL 代码助手 美国 2017 主观 VGEN 代码助手 美国 2023 主观 VerilogEval 代码助手 美国 2023 主观 AgentBench AI 智能体 中国 2023 主观 AgentSims AI 智能体 中国 2023 主观/客观 BOLAA AI 智能体 中国 2023 主观 TELeR AI 智能体 美国 2023 主观 SQA3D 具身智能 中国 2022 主观 BEHAVIOR-1K 具身智能 美国 2023 主观 ALFRED 具身智能 美国 2023 主观 大模型基准测试体系研究报告(2024 年)4 附表 4 语言大模型安全能力的代表性评测数据集 基准名称 评测目标 国家 时间 题目类型 DECODINGTRUST 综合安全 美国 2023 主观 Safety-Prompts 综合安全 中国 2023 主观 TRUSTGPT 综合安全 中国 2023 主观 SafetyBench 综合安全 中国 2023 主观 TOXIGEN 内容安全 美国 2022 主观 CPAD 内容安全 中国 2023 主观 JADE 内容安全 中国 2023 主观 Do-Not-Answer 内容安全 阿联酋 2023 主观 CVALUES 伦理安全 中国 2023 主观 ETHICS 伦理安全 美国 2020 主观 BBQ 伦理安全 美国 2021 主观 DialogueSafety 伦理安全 中国 2023 主观 CONFAIDE 隐私安全 美国 2023 客观 R-Judge 模型安全 中国 2024 主观 附表 5 多模态大模型通用能力的代表性评测数据集 基准名称 评测目标 国家 时间 题目类型 MME 综合能力 中国 2023 主观/客观 MMBench 综合能力 中国 2023 主观/客观 SEED-Bench 综合能力 中国 2023 主观/客观 LVLM-eHub 综合能力 中国 2023 主观/客观 OwlEval 综合能力 中国 2023 主观/客观 MM-Vet 综合能力 新加坡 2023 主观/客观 TouchStone 综合能力 中国 2023 主观/客观 LLaVA-Bench 综合能力 美国 2023 主观/客观 VQA 视觉问答 美国 2015 主观/客观 大模型基准测试体系研究报告(2024 年)4 OK-VQA 视觉问答 美国 2019 主观/客观 SCIGRAPHQA 视觉问答 美国 2023 主观/客观 CORE-MM 视觉推理 中国 2023 主观/客观 CONTEXTUAL 视觉推理 美国 2024 主观/客观 Mementos 视觉推理 美国 2024 主观/客观 OCRBench 视觉处理 中国 2023 主观/客观 Q-Bench 视觉处理 新加坡 2023 主观/客观 T2I-CompBench 图像生成 香港 2023 主观/客观 HRS-Bench 图像生成 沙特 2023 主观/客观 POPE 可靠性 中国 2023 主观 AMBER 可靠性 中国 2023 主观 大模型基准测试体系研究报告(2024 年)4 缩略语缩略语 AI Artificial Intelligence 人工智能 AGI Artificial General Intelligence 通用人工智能 GPU Graphics Processing Unit 图形处理器 API Application Programming Interface 应用程序编程接口 GPT Generative Pre-trained Transformer 生成式预训练变换器 NLP Natural Language Processing 自然语言处理 HELM Holistic Evaluation of Language Models 语言模型整体评估 SOTA State-Of-The-Art 领域最佳性能 RAG Retrieval Augmented Generation 检索增强生成 大模型基准测试体系研究报告(2024 年)4 参考文献参考文献 1.WX Zhao,K Zhou,J Li,T Tang,X Wang,Y Hou,et al.A survey of large language models.arXiv:2303.18223,2023.2.张奇,桂韬,郑锐,黄萱菁.大规模语言模型从理论到实践.中国工信出版集团,2023.3.Y Chang,et al.A survey on evaluation of large language models J.ACM Transactions on Intelligent Systems and Technology,2023,15(3):1-45.4.Z Guo,R Jin,C Liu,Y Huang,D Shi,L Yu,Y Liu,J Li,B Xiong,D Xiong.Evaluating large language models:A comprehensive survey.arXiv:2310.19736,2023.5.罗文,王厚峰.大语言模型评测综述 J.中文信息学报,2024,38(1):1-23.6.D Hendrycks,C Burns,S Basart,A Zou,M Mazeika,D Song,J Steinhardt.Measuring Massive Multitask Language Understanding C.International Conference on Learning Representations(ICLR),2020.7.Y Huang,Y Bai,et al.C-eval:A multi-level multi-discipline chinese evaluation suite for foundation models C.Advances in Neural Information Processing Systems(NeurIPS),2024.8.T Zhang,F Ladhak,E Durmus,P Liang,et al.Benchmarking large language models for news summarization J.Transactions of the Association for Computational Linguistics,2024,12:39-57.9.K Zhu,J Chen,J Wang,NZ Gong,D Yang,X Xie.Dyval:Graph-informed dynamic evaluation of large language models.arXiv:2309.17167,2023.10.CH Chiang,H Lee.Can large language models be an alternative to human evaluations?arXiv:2305.01937,2023.11.C Li,Z Gan,Z Yang,J Yang,L Li,L Wang,J Gao.Multimodal Foundation Models:From Specialists to General-Purpose Assistants.arXiv:2309.10020,2023.12.T Lee,M Yasunaga,C Meng,Y Mai,JS Park,A Gupta,Y Zhang,D Narayanan,H Teufel.Holistic Evaluation of Text-to-Image Models C.Advances in Neural Information Processing Systems(NeurIPS),2024.大模型基准测试体系研究报告(2024 年)4 13.Y Liu,H Duan,Y Zhang,B Li,S Zhang,W Zhao,et al.Mmbench:Is your multi-modal model an all-around player?.arxiv:2307.06281,2023.14.X Liu,H Yu,H Zhang,et al.Agentbench:Evaluating llms as agents.arxiv:2308.03688,2023.15.Q Xie,W Han,X Zhang,Y Lai,M Peng,A Lopez-Lira,J Huang.Pixiu:A large language model,instruction data and evaluation benchmark for finance.arxiv:2306.05443,2023.16.L Zhang,W Cai,Z Liu,et al.Fineval:A chinese financial domain knowledge evaluation benchmark for large language models.arxiv:2308.09975,2023.17.Z Fei,X Shen,D Zhu,F Zhou,Z Han,S Zhang,K Chen,Z Shen,J Ge.Lawbench:Benchmarking legal knowledge of large language models.arxiv:2309.16289,2023.18.J Chen,H Lin,X Han,L Sun.Benchmarking large language models in retrieval-augmented generation C.Proceedings of the AAAI Conference on Artificial Intelligence(AAAI),2024.19.X Liu,X Lei,S Wang,et al.Alignbench:Benchmarking chinese alignment of large language models.arXiv:2311.18743,2023.20.Y Zhuang,Q Liu,Y Ning,et al.Efficiently measuring the cognitive ability of llms:An adaptive testing perspective.arxiv:2306.10512,2023.21.X Zhang,B Yu,H Yu,Y Lv,T Liu,F Huang,H Xu,Y Li.Wider and deeper llm networks are fairer llm evaluators.arxiv:2308.01862,2023.大模型基准测试体系研究报告(2024 年)4 编制说明编制说明 本研究报告自 2023 年 12 月启动编制,分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段,面向大模型基准测试的技术供应方和服务应用方开展了深度的调研等工作。本报告由中国信息通信研究院人工智能研究所撰写,撰写过程中得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。参编单位:中国科学院大学、中国科学院软件研究所、北京智源人工智能研究院、天津大学、北京邮电大学、北京交通大学、中国移动通信集团有限公司、中国电信集团有限公司、中国联合网络通信集团有限公司、广州数据集团有限公司、航天信息股份有限公司、煤炭科学研究总院、华为云计算技术有限公司、百度云计算技术有限公司、腾讯计算机系统有限公司、阿里云计算有限公司、科大讯飞股份有限公司、浪潮通信信息系统有限公司、荣耀终端有限公司、蚂蚁科技集团股份有限公司、北京海天瑞声科技股份有限公司、东方财富信息股份有限公司、甲骨易语言科技股份有限公司、远光软件股份有限公司、南京新一代人工智能研究院。大模型基准测试体系研究报告(2024 年)4 中国信息通信研究院中国信息通信研究院 人工智能研究所人工智能研究所 地址:北京市海淀区花园北路地址:北京市海淀区花园北路 5252 号号 邮编:邮编:100191 电话:电话:010-62301618 传真:传真:010-62301618 网址:网址:

    浏览量87人已浏览 发布时间2024-07-12 52页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • SuperCLUE:中文大模型基准测评2024年上半年报告(59页).pdf

    中文大模型基准测评中文大模型基准测评2022024 4年年上半年上半年报告报告 2024.07.09 2024年度中文大模型阶段性进展评估SuperCLUE团队精准量化AGI进展,定义人类迈向AGI的路线图Accurately quantifying the progress of AGI,defining the roadmap for humanitys journey towards AGI.报告核心结论摘要国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。国内开源模型崛起:国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。各任务表现:各任务表现:在文科、理科和Hard任务中,GPT-4o综合最佳,Claude-3.5在Hard任务表现突出,Qwen2-72B在文科任务表现优异。端侧小模型表现惊艳:端侧小模型表现惊艳:端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。3SuperCLUE模型象限SuperCLUE各维度任务来源:SuperCLUE,2024年7月9日来源:SuperCLUE,2024年7月9日目 录目 录 1.1.国内大模型关键进展及国内大模型关键进展及趋势趋势2023-2024年大模型关键进展2024年值得关注的中文大模型全景图2023-2024年度国内外大模型技术发展趋势中文大模型基准SuperCLUE介绍SuperCLUE测评体系及数据集总榜、理科榜单、文科榜单、Hard榜单及模型象限开源榜单及端侧小模型榜单大模型对战胜率、成熟度指数评测与人类一致性分析 2.SuperCLUE2.SuperCLUE通用能力测通用能力测评评 4.SuperCLUE4.SuperCLUE专项与行业专项与行业基准基准测评测评 5.5.优秀模型优秀模型案例介绍案例介绍优秀模型案例介绍各行业、专项测评未来两个月基准发布计划 3.SuperCLUE3.SuperCLUE多模态能力测评多模态能力测评AIGVBench视频生成测评SuperCLUE-Image文生图测评SuperCLUE-V多模态理解测评4第1部分 国内大模型关键进展及趋势国内大模型关键进展及趋势1.2023-2024大模型关键进展 2.中文大模型全景图 3.国内外大模型发展趋势5(关键进展)时间准备期准备期成长期成长期爆发爆发期期自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为三个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开 源闭源大模型层出不穷,形成百模大战的竞争态势)。故事的起点:故事的起点:ChatGPTChatGPT发布发布国内迅速形成大模型共识国内迅速形成大模型共识百度发布文心一言1.0 2023-2024大模型关键进展2022.122023.022023.122024.042024.062023.06OpenAIOpenAI发布发布GPT-4GPT-4清华开源ChatGLM360发布360智脑科大讯飞发布星火阿里云发布通义千问MetaMeta开源开源Llama2Llama2百川智能开源BaichuanOpenAIOpenAI发布发布GPT-4 TurboGPT-4 Turbo、多模态多模态GPT-4VGPT-4V百度升级文心一言4.0阿里云开源Qwen-7B华为发布盘古3.0字节跳动公测大模型产品豆包vivo发布BlueLM小米发布大模型MiLM西湖心辰发布西湖大模型零一万物开源Yi-34B科大讯飞升级星火3.0云从科技发布从容大模型OPPO发布AndesGPT商汤科技发布商量2.0GoogleGoogle发布发布 多模态大模型多模态大模型GeminiGemini腾讯发布混元助手SuperCLUE:AI大模型2023-2024年关键进展OpenAIOpenAI发布文生视频发布文生视频SoraSora百川智能发布Baichuan3MiniMax发布ABAB6.5智谱AI发布GLM-4GoogleGoogle发布发布Gemini1.5Gemini1.5Claude3Claude3发布发布科大讯飞发布星火3.5商汤发布SenseChat5.0KimiChat支持200万上下文MetaMeta开源开源Llama3Llama3OpenAIOpenAI发布发布GPT-4oGPT-4o阿里云开源Qwen2-72B快手发布可灵视频生成百川智能发布Baichuan4RunwayRunway发布发布Gen-3Gen-3Claude3.5Claude3.5发布发布科大讯飞发布星火4.0零一万物发布Yi-largeDeepSeek-V2发布国内大模型大幅降价62024年值得关注的中文大模型全景图通通用用大大模模型型字节豆包大模型AndesGPT玉言闭源闭源(语言模型语言模型)开开源源行行业业大大模模型型岐 黄 问 道医疗医疗MindGPTMindGPT蚂蚁金融大模型轩辕大模型AInno-15BCOSMO-GPTCOSMO-GPTSMore LrMo妙笔大模型妙笔大模型文化文化/零售零售/交通交通部分部分领域领域汽车汽车教育教育金融金融工业工业.MedGPT华佗GPT左医GPT京医千询.NoNomiGPTmiGPT妙想大模型闭源闭源(多模态多模态)72023-2024年度国内外大模型发展趋势模型模型23年年5月月 23年年6月月23年年7月月23年年8月月23年年9月月23年年10月月23年年11月月23年年12月月24年年2月月24年年4月月24年年6月月GPT最新模型(GPT3.5、4、4-Turbo、4o)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.00国内TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.00国内TOP249.5262.5859.3555.7062.6170.4272.8896.5486.7772.5876.00国内TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.00 2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年6月的4.94%。国内外Top1模型差距分数国内外Top1模型差距比例SuperCLUE基准:过去基准:过去14个月国内外个月国内外TOP模型对比趋势模型对比趋势来源:SuperCLUE,2023年5月2024年6月,期间发布的11次大模型基准测评报告。8第2部分 SuperCLUESuperCLUE通用能力测评通用能力测评1.SuperCLUE介绍 2.SuperCLUE综合测评体系及数据集 3.国内外大模型总体表现 4.子任务测评结果 5.SuperCLUE模型象限 6.国内大模型历月前三甲 7.理科测评结果 8.文科测评结果 9.Hard测评结果 10.开源及端侧小模型总体表现 11.大模型对战胜率分布图 12.SuperCLUE成熟度指数 13.评测与人类一致性验证 9010203随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。独立第三方测评,独立第三方测评,非大模型方主导非大模型方主导中 文 语 言 理 解 测 评 基 准中 文 语 言 理 解 测 评 基 准 C L U E(T h e C h i n e s e L a n g u a g e Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。SuperCLUE是大模型时代是大模型时代CLUE基准的发展和延续基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。独立独立第三方第三方多轮多轮动态更新动态更新高高保密性保密性其他测评其他测评 SuperCLUE不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。“livelive”更新,测评体系更新,测评体系/方法与时俱进方法与时俱进 不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生成能力。测评方式与真实用户体验目标一致测评方式与真实用户体验目标一致非独立第三方非独立第三方单轮单轮学术学术保密性低保密性低VSSuperCLUESuperCLUE三三大特征大特征产业产业 用户用户视角视角SuperCLUE与其他测评与其他测评的区别的区别SuperCLUE介绍10SuperCLUE大模型综合测评体系通用能力通用能力评估评估专项能力专项能力评估评估SuperCLUE重点专项评估重点专项评估Math6数学多步推理RAG检索增强生成Agent智能体Safety安全Code3代码Role角色扮演Long长文本代码助手AI搜索行业行业工业终 端 消 费 者专项能力评估包括文本专项和多模态专项注:专项与通用能力侧重点不同,通用侧重基础能力,专项侧重场景应用能力医疗汽车金融行业行业/应用评估应用评估理科理科计算逻辑推理代码文科文科知识百科安全HardHard精确指令遵循复杂任务高阶推理高难度问题解决生成创作语言理解角色扮演工具使用长文本AIGVBench视频生成Image文生图多模态理解AIAI产品产品SuperCLUE大模型综合测评体系11SuperCLUE通用测评基准数据集理科文科Hard1.1.计算计算包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。2 2.逻辑推理逻辑推理包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。3 3.代码代码HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。4 4.知识百科知识百科基础知识类数据集,包括但不限于历史、地理、科学、体育、娱乐、艺术。5 5.语言理解语言理解基础语义理解数据集,包括但不限于信息抽取、意图识别、情感分析、摘要。6 6.长文本长文本考察长文处理能力的数据集,包括全文摘要、线索摘要、多文本创作等。7 7.角色角色扮演扮演考察模型角色模拟扮演能力,包括语言风格、行为习惯、角色背景等数据集。8 8.生成与创作生成与创作包括但不限于广告文案、技术写作、公文写作、文学创作的数据集。9 9.安全安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。1 10.0.工具使用工具使用用 来 评 估 大 模 型 的Agent能力,包括检索、调用、规划API以及通用工具使用能力的数据集。1 11.1.精确指令精确指令遵循遵循主要考察模型的指令遵循能力,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。1 12.2.复杂任务多步复杂任务多步推理推理主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理。1 13.3.高难度问题处理高难度问题处理考察AI模型解决实际生活或专业领域中的复杂问题的能力。SuperCLUE通用基准数据集通用基准数据集为进一步真实反应大模型能力,本次半年度测评采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。【理科任务】分为计算、逻辑推理、代码测评集;【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集;【Hard任务】本次测评首次纳入精确指令遵循测评集,另外复杂多步推理和高难度问题解决Hard测评集后续陆续推出。12模型模型机构机构简介简介模型模型机构机构简介简介1.GPT-4oOpenAI官方于2024年5月13日发布的gpt-4o-2024-05-1318.Llama-3-70B-Instruct(poe)Meta在POE平台的Llama3的70B版本2.Qwen2-72B-Instruct阿里巴巴官方开源:qwen2-72b-instruct19.文心一言4.0百度官方公开发布的API版本:ERNIE-4.0-8K-Latest3.Claude-3.5-Sonnet-200kAnthropic官方在2024年6月21日发布的Claude-3.5-Sonnet20.Gemini-1.5-ProGooglePOE平台的Gemini-1.5-Pro4.DeepSeek-V2深度求索官方公开发布的API版本:deepseek-chat的V2版21.阶跃星辰step-1-32k阶跃星辰官方公开发布API版本:step-1-32k5.GLM-4-0520清华&智谱AI官方公开发布的API版本:GLM-4-052022.GPT-3.5-Turbo-0125OpenAI2024年1月25日发布的GPT-3.5-turbo的更新版本6.SenseChat5.0商汤官方公开发布的API版本:SenseChat5.023.Yi-1.5-34B-Chat-16K零一万物官方开源的Yi-1.5-34B-Chat-16K版本7.GPT-4-Turbo-0409OpenAI2024年4月9日发布的GPT-4-turbo的更新版本24.qwen2-7b-instruct阿里巴巴官方开源:qwen2-7b-instruct8.AndesGPTOPPO官方小范围内测API的6月版本25.XVERSE-65B-2-32K元象科技官方开源的XVERSE-65B-29.GPT-4(官网)OpenAIOpenAI官网的GPT-4,支持联网功能26.qwen1.5-32b-chat阿里巴巴官方开源:qwen1.5-32b-chat10.山海大模型4.0云知声官方小范围内测API的6月4.0版本27.Llama-3-8B-InstructMeta官方开源的Llama-3-8B-Instruct版本11.Moonshot(Kimi)月之暗面官方网页版产品【Kimi】,6月版本28.Yi-1.5-6B-Chat零一万物官方开源的Yi-1.5-6B-Chat版本12.360gpt2-pro360官方小范围内测API的6月V2版本29.Baichuan2-13B-Chat-v2 百川智能开源的第二代13B的Chat版本V213.Doubao-pro-32k-0615字节跳动字节公开发布的API版本:doubao-pro-32k/24061530.Phi-3-mini-128k-instruct微软官方开源的Phi-3-mini-128k-instruct版本14.Baichuan4百川智能官方公开发布的Baichuan4的API版本31.gemma-7b-itGoogle官方开源的7B版本15.MiniMax-abab6.5稀宇科技官方公开发布的abab6.5的API版本32.qwen2-1.5b-instruct阿里巴巴官方开源:qwen2-1.5b-instruct16.通义千问2.5阿里巴巴官方公开发布的API版本:qwen-max33.Llama-2-13b-chatMeta官方开源的2代13B的Chat的开源版本17.讯飞星火V4.0科大讯飞官方公开发布的星火V4.0的API版本/本次测评数据选取了SuperCLUE-6SuperCLUE-6月月测评结果,模型选取了国内外有代表性的3333个大模型个大模型在6月份的版本。测评模型列表13海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准榜单基准榜单来源:SuperCLUE,2024年7月9日注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型总体发展态势国内外大模型总体发展态势1.1.GPT-4GPT-4o o领跑,国内大模型进展迅速领跑,国内大模型进展迅速 GPT-4o以81分的绝对优势领跑 SuperCLUE基准测试,是全球模型中唯一超过80分的大模型。展现出强大的语言、数理和指令遵循能力。国内大模型上半年发展非常迅速,其中有6个国内大模型超过GPT-4-Turbo-0409。绝大部分闭源模型已超过GPT-3.5-Turbo-0125。2.2.国内大模型形成三大国内大模型形成三大梯队,头部企业引领发展梯队,头部企业引领发展 国内大模型市场形成多梯队格局,头部企业凭借快速迭代、技术积累或资源优势,引领国内大模型发展。例如大厂模型以阿里的Qwen2-72B、商汤的SenseChat5.0等均以 75 的分数位居国内大模型第一梯队。大模型创业公司的代表如GLM-4、Baichuan4、Kimi、MiniMax-abab6.5均有超过70分的表现,位列国内大模型第一梯队。3.3.开源模型极大发展,有超出闭源模型趋势开源模型极大发展,有超出闭源模型趋势 开源模型Qwen2-72B在SuperCLUE基准中表现非常出色,超过众多国内外闭源模型,与Claude-3.5持平,与GPT-4o仅差4分。零一万物推出的Yi-1.5-34B在开源领域表现不俗,有超过60分的表现,较为接近部分闭源模型。随着技术进步和应用场景拓展,2024年下半年国内外大模型市场竞争将持续加剧,推动技术创新和产业升级。SuperCLUE通用能力测评:一级总分14SuperCLUE通用能力测评:二级维度分数来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。15SuperCLUE通用能力测评:三级细粒度分数来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。16基础基础能力能力应用能力应用能力潜力探索者技术领跑者实用主义者卓越领导者文心一言文心一言4.0通义千问通义千问2.5MoonShot(Kimi)GLM-4-0520MiniMax-abab6.5Yi-1.5-34B-ChatDoubao-pro-32k-0615(字节豆包字节豆包)XVERSE-65B-2-32KGPT-4oGPT-4(官网官网)GPT-3.5-Turbo-0125Claude-3.5-Sonnet-200kLlama-3-8B-Instruct注:1.两个维度的组成。基础能力,包含:计算、代码、传统安全等能力;应用能力,包括:工具使用、角色扮演等能力2.四个象限的含义。它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。360gpt2-proGemini1.5-pro来源:SuperCLUE,2024年7月9日Baichuan4讯飞星火讯飞星火V4.0qwen-1.5-32b-chatgemma-7b-itGPT-4-Turbo-0409山海大模型山海大模型4.0(云知声云知声)step-1-32k(阶跃星辰阶跃星辰)Llama-3-70B-Instruct(poe)SuperCLUE模型象限Qwen2-72BDeepSeek-V2(深度求索深度求索)AndesGPT(OPPO)SenseChat5.017测评时间测评时间第一名第一名第二名第二名第三名第三名2024年6月Qwen2-72BGLM-4-0520、DeepSeek-V2、SenseChat5.0AndesGPT2024年4月Baichuan3GLM-4、通义千问2.1腾讯Hunyuan-pro、文心一言4.02024年2月文心一言4.0GLM-4通义千问2.12023年12月文心一言4.0 通义千问2.0AndesGPT2023年11月文心一言4.0 MoonshotYi-34B-Chat2023年10月BlueLMMoonshot文心一言4.0 2023年9月SenseChat3.0文心一言(网页v2.3.1)ChatGLM2-Pro2023年8月Baichuan2-13B-ChatMinimax-abab5文心一言(网页v2.2.3)2023年7月文心一言(网页v2.2.0)ChatGLM-130B讯飞星火V1.52023年6月360智脑文心一言讯飞星火2023年5月360智脑讯飞星火ChatGLM-130B国内大模型SuperCLUE历届Top3来源:SuperCLUE,2023年5月2024年6月,期间发布的11次大模型基准测评报告。18SuperCLUE-理科测评说明SuperCLUE-理科评测数据集计算计算包括线性代数、概率统计、微积分及数学多步推理算术在内的基础数学数据集。逻辑推理逻辑推理包括三段论、关系推理、朴素推理等在内的中文逻辑推理数据集。代码代码HumanEval的中文升级版,分为初级、中级和高级的8种常见类型代码数据集。测评方法评测流程:评测流程:我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。以【逻辑推理】任务为例,设定的评价标准包括:符合基本要求、推理准确性、结论合理性。假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、推理准确性4分、结论合理性5分。首先,我们计算这一题目的平均得分:因此,该题目的具体得分为4分。最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。问题:问题:在一场马拉松比赛中,有四位跑者:艾达、贝特、卡斯和丹尼。他们分别穿着红色、蓝色、绿色和黄色的运动衣,他们的排名是1、2、3和4。以下是你知道的信息:穿红色衣服的跑者排名高于贝特,但低于卡斯。绿色衣服的跑者排名最低。艾达没有穿蓝色衣服,也没有获得第二名。丹尼穿黄色,是第一名。请问,穿红色衣服的是谁?名次是多少?回答:回答:由于丹尼是第一名并且穿黄色衣服,我们可以确定:丹尼=黄色=第一名由于绿色衣服的跑者排名最低,即第四名,我们可以确定:绿色=第四名由于艾达没有获得第二名,艾达的可能名次是第一名、第三名或第四名。但因为第一名和第四名已被丹尼和绿色衣服的跑者占据,所以艾达只能是第三名。艾达也没有穿蓝色衣服,所以艾达的衣服颜色只能是红色或黄色,但黄色已被丹尼穿着。所以,我们可以确定:艾达=红色=第三名剩下的贝特和卡斯中,穿红色衣服的跑者排名高于贝特且低于卡斯,这意味着贝特不能穿红色(因为艾达已是红色)。所以贝特只能是第二名,并穿蓝色衣服。卡斯因此是绿色衣服的跑者,并排名第四名。最后整理:丹尼=黄色=第一名;贝特=蓝色=第二名;艾达=红色=第三名;卡斯=绿色=第四名;因此,穿红色衣服的是艾达,名次是第三名。评价打分:评价打分:打分与评价开始:基于标准1的;模型回答完整遵循用户意图,清晰整理了已知条件并进行了推理。符合基本要求。得分:5分;基于标准2的;模型回答的推理大体正确,但有些冗余和推理步骤可以优化,部分步骤显得重复。得分:3分;基于标准3的;模型回答最终得出的结论是正确且合理的,符合现实世界的常识与已知信息。得分:5分;综合以上,AI助手的回答的综合得分(平均分)为4.33-逐项打分结束-示例19海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准:基准:理科得分理科得分国内外大模型理科能力分析国内外大模型理科能力分析SuperCLUE-理科成绩1.1.GPT-4GPT-4o o领先,国内外有一定差距领先,国内外有一定差距 GPT-4o以81分的绝对优势领跑SuperCLUE基准理科测试,是全球模型中唯一超过80分的大模型。GPT-4-Turbo-0409得分77分,紧随其后。国 内 大 模 型 理 科 表 现 优 异 的 模 型,如 Q w e n 2-7 2 B、AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409,均取得76分的高分。但与GPT-4o还有较大差距。2.2.理科任务具有较高的挑战难度,区分度明显理科任务具有较高的挑战难度,区分度明显 理科任务有较高难度,我们可以发现,GPT-4o和GPT3.5-Turbo有17分的差距,Llama-3-70B比Llama-2-13B有34分的差距。在国内闭源模型中,表现最高的模型(76分)和表现最差模型(58分)有18分的区分度。可见在理科任务上较能反应大模型之间的能力差距。3.3.小参数量模型在理科能力上表现不足小参数量模型在理科能力上表现不足 参数量较小的模型在SuperCLUE理科测评中,基本均为达到60分及格线,可见在难度较高任务上,参数量依然是影响较大的因素。理科任务上主要包括计算、逻辑推理和代码任务,这几项将是国内外大模型在下半年重点突破的方向。20来源:SuperCLUE,2024年7月9日;由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。SuperCLUE-文科测评说明SuperCLUE-文科评测数据集测评方法评测流程:评测流程:我们采用高级AI模型(例如GPT-4o)来评估不同任务的表现,根据设定的评价标准进行打分(1-5分)。以【知识百科】任务为例,设定的评价标准包括:符合基本要求、事实正确性、清晰度。假设在一个具体的题目中,模型A的得分如下:符合基本要求3分、事实正确性4分、清晰度5分。首先,我们计算这一题目的平均得分:因此,该题目的具体得分为4分。最后,将所有题目的得分进行归一化处理,以确保满分为100分。这样,每个任务的得分都能清晰地反映模型在不同标准下的表现。问题:问题:中国第一部现代白话小说是什么?回答:回答:中国第一部现代白话小说是鲁迅的狂人日记。这部小说发表于1918年,标志着中国现代文学的开始,它采用了白话文写作,与传统的文言文小说形成鲜明对比,具有划时代的意义。狂人日记通过一个精神病患者的视角,揭露和批判了中国封建社会的残酷和愚昧,是中国现代文学史上的重要作品。评价打分:评价打分:-逐项打分开始-我的思考与答案:中国第一部现代白话小说是鲁迅的狂人日记。这部小说发表于1918年,是中国现代文学的开端。它通过一个患有精神病的人的视角,批判了封建社会的残酷和愚昧。狂人日记采用白话文写作,与传统的文言文小说形成鲜明对比,具有重要的历史和文学意义。打分与评价开始:基于标准1的:模型的回答准确响应了用户的问题,提供了预期的信息,并且解释了相关的背景。基于标准1的得分为5分;基于标准2的:模型回答中的信息准确无误,包括小说的名称、作者和发表时间,且解释了其历史意义。基于标准2的得分为5分;基于标准3的:模型的回答整体清楚,但稍显繁琐,若能精简一些,表达会更加清晰。基于标准3的得分为4分;综合以上,AI助手的回答的综合得分(平均分)为4.67-逐项打分结束-示例工具使用工具使用用来评估大模型的Agent能力,包括检索、调用、规划API以及通用工具使用能力的数据集。知识百科知识百科基础知识类数据集,包括但不限于历史、地理、科学、体育、娱乐、艺术。语言理解语言理解基础语义理解数据集,包括但不限于信息抽取、意图识别、情感分析、摘要。长文本长文本考察长文处理能力的数据集,包括全文摘要、线索摘要、多文本创作等。角色角色扮演扮演考察模型角色模拟扮演能力,包括语言风格、行为习惯、角色背景等数据集。生成与创作生成与创作包括但不限于广告文案、技术写作、公文写作、文学创作的数据集。安全安全包括但不限于违法犯罪、财产隐私、偏见歧视、脏话侮辱、道德伦理等。21海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准:基准:文科得分文科得分来源:SuperCLUE,2024年7月9日由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型国内外大模型文科能力分析文科能力分析SuperCLUE-文科成绩1.1.国内外头部模型处于同一水平,均未达到国内外头部模型处于同一水平,均未达到8080分良好线分良好线 GPT-4o在文科任务上取得76分,并未超过80分,说明文科任务上实现高质量处理依然有较大提升空间。国内擅长文科的 模 型 如 Q w e n 2-7 2 B、A n d e s G P T、通 义 千 问 2.5 和 DeepSeek-V2同样取得76分,与GPT-4o处于同一水平。另 外 国 内 大 模 型 如 S e n s e C h a t 5.0、山 海 大 模 型 4.0 和360gpt2-pro取得75分,表现不俗。与GPT-4-Turbo-0409表现相当。2.2.文科任务模型间的区分度不明显,表现文科任务模型间的区分度不明显,表现“中规中矩中规中矩”本次测评所有国内模型得分分布较为集中,没有较大的区分性,均处于及格线(60分)-良好线(80分)之间。国内外闭源模型得分均处于70-80分,表现“中规中矩”,处理能力较为相似。国内开源模型得分大部分处于60-70分,表现“基本可用”,但在质量上还有较大提升空间。3.3.模型模型参数量在文科能力上不是模型的决定性因素参数量在文科能力上不是模型的决定性因素 本次测评中参数量最小的模型qwen2-1.5b(15亿参数量),依然有超过60分的表现,而qwen2-7b有超过70分的表现,与文心一言4.0表现接近。文科任务上如何提高语言处理质量,增加内容生成和理解的优秀水平,是国内外大模型需要进一步优化的方向。22SuperCLUE-Hard测评说明(高挑战性)SuperCLUE-Hard评测数据集精确指令遵循精确指令遵循主要考察模型的指令遵循能力,要求AI严格按照给定的指令进行回复,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。测评方法评测流程:评测流程:我们完成了一个针对不同的语言模型的(文本输出)精确指令遵循表现的测试,根据设定的评估标准进行评估。评估的结果为布尔值(True 或 False)。以【写一篇关于可再生能源对减少碳排放的作用的短文。要求文章不得使用“二氧化碳”这个词,字数不少于10个字,以JSON格式返回】任务为例:设定的评价标准包括:遵循关键词限制、符合字数要求、输出格式正确遵循关键词限制、符合字数要求、输出格式正确。模型只有在命中所有指令的条件下会得到True的返回结果。例如:模型输出结果1:response:可再生能源在减少碳排放和减轻气候变化方面起着关键作用,未来应加快推广。符合所有要求,返回True。模型输出结果2:response:使用可再生能源可以减少二氧化碳排放。违背了关键词限制,返回False。最后,我们将所有题目的评估结果进行汇总,根据模型完全命中的题目数量计算模型的最终命中率,命中率以百分比为单位。具体来说,命中率计算公式为:命中率命中率=(=(模型完全命中的题目数量模型完全命中的题目数量 总题目数量总题目数量)1000%问题:问题:用纯文本格式写一篇关于智能医疗设备在现代医院中的应用的短文,要求在文章中使用这四个技术术语:机器人辅助、电子病历、机器人辅助、电子病历、3D3D打印、健康。并且每个技术术语必须至打印、健康。并且每个技术术语必须至少出现少出现1010次。次。回答:回答:智能医疗设备在现代医院中的应用正在迅速普及,机器人辅助技术已经在手术、康复等领域得到了广泛应用。通过机器人辅助,医生可以进行更精确的操作,从而提高成功率并减少术后并发症。此外,机器人辅助还广泛应用于微创手术,使患者能够在短时间内恢复健康。.省略.综上所述,机器人辅助、电子病历、3D打印和健康领域的智能医疗设备在现代医院中的应用,为医疗界带来了诸多革新。这些技术使患者能够享受更加高效、安全、个性化的治疗和健康管理。通过不断发展和创新,智能医疗设备将在未来持续推动医疗行业的进步与健康改善。评价打分:评价打分:def check_following(model_response):idioms=机器人辅助,电子病历,3D打印,大数据 counts=idiom:0 for idiom in idioms for idiom in idioms:countsidiom=model_response.count(idiom)return all(count=10 for count in counts.values()测评结果:测试不通过测试不通过示例23海外模型海外模型国内模型国内模型国内外大模型国内外大模型SuperCLUE基准:基准:HardHard得分得分来源:SuperCLUE,2024年7月9日由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。国内外大模型国内外大模型HardHard能力分析能力分析SuperCLUE-Hard成绩1.1.国内外模型在精确指令遵循能力上有一定差距国内外模型在精确指令遵循能力上有一定差距 GPT-4o在Hard任务(精确指令遵循)任务上取得85分,领跑全球大模型。Claude-3.5-Sonnet-200k仅随其后取得84分,表现同样不俗。是国内外模型中唯二超过80分的大模型。国内表现最好的模型是GLM-4-0520和Qwen2-72B,取得79分,较GPT-4o低6分,还有一定的提升空间。2.2.精确指令遵循有较大区分度精确指令遵循有较大区分度 本次测评所有模型得分的差异性较大,超出80分只有2个模型,且与排名第三的模型有5分差距。国 内 仅 有 4 个 模 型 超 过 了 7 5 分,分 别 为 G L M-4-0 5 2 0、Qwen2-72B、SenseChat5.0和DeepSeek-V2。在国内大模型中较为领先。国内闭源模型中得分最低的仅有60分,这说明高难度任务可以进一步区分模型之间的能力差距。3.3.小小模型普遍不擅长模型普遍不擅长精确指令遵循精确指令遵循 本次测评中参数量最小的开源模型qwen2-1.5b在精确指令遵循任务上仅有18分,并且小于10B的模型均为达到60分及格线,是端侧小模型后续需要重点提升的能力。Hard任务如精确指令遵循,可以很好的考察大模型的极限能力,后续将陆续增加复杂任务高阶推理和高难度问题解决等Hard任务,会进一步发现大模型的优化方向。24SuperCLUE通用能力测评-开源榜单SuperCLUE开源开源榜单榜单来源:SuperCLUE,2024年7月9日;注:由于部分模型分数较为接近,为了减少问题波动对排名的影响,本次测评将相距1分区间的模型定义为并列,报告中分数展示以上区间为主。海外模型不参与排名。开源模型分析开源模型分析1.1.中文场景国内开源模型具备较强竞争力中文场景国内开源模型具备较强竞争力 Q w e n 2-7 2 B 领 跑 全 球 开 源 模 型,较Llama-3-70B在中文能力上有较大领先性。Yi-1.5系列模型同样有不俗的表现,其中34B版本有超过60分的表现。小参数量的模型发展迅速,如qwen2-1.5b与gemma-7b表现相当。2.2.在高难度任务上,不同的开源模型区分在高难度任务上,不同的开源模型区分度较大。度较大。在Hard任务中,Qwen2-72B和Llama-3-70B领先幅度很大,均有超出70分的表现。其他开源模型均未达到及格线。排名排名模型模型机构机构参数量参数量SuperCLUE分数分数1Qwen2-72B-Instruct阿里云720亿77-Llama-3-70B-InstructMeta700亿692Yi-1.5-34B-Chat-16K零一万物340亿633qwen2-7b-instruct阿里云70亿624XVERSE-65B-2-32K元象科技650亿605qwen1.5-32b-chat阿里云320亿57-Llama-3-8B-InstructMeta80亿546Baichuan2-13B-Chat百川智能130亿536Yi-1.5-6B-Chat零一万物60亿53-Phi-3-mini-128k-instruct微软38亿408qwen2-1.5b-instruct阿里云15亿38-gemma-7b-itGoogle70亿38-Llama-2-13b-chatMeta130亿3525SuperCLUE通用能力测评-端侧小模型榜单SuperCLUESuperCLUE端侧小模型榜单端侧小模型榜单来源:SuperCLUE,2024年7月9日排名排名模型模型机构机构参数量参数量SuperCLUE分数分数对比对比1qwen2-7b-instruct阿里云70亿62高于qwen1.5-32b-instruct(57分),参数量小4.5倍2Llama-3-8B-InstructMeta80亿54高于Llama-2-13B-Instruct(35分),参数量小1.6倍3Yi-1.5-6B-Chat零一万物60亿53等于Baichuan2-13B-Chat-v2(53分),参数量小2.2倍4Phi-3-mini-128k微软38亿40高于Llama-2-13B-Instruct(35分),参数量小3.4倍5qwen2-1.5b-instruct阿里云15亿38高于Llama-2-13B-Instruct(35分),参数量小8.7倍6gemma-7b-itGoogle70亿38高于Llama-2-13B-Instruct(35分),参数量小1.9倍 2024年上半年小模型快速发展,可在设备端侧(非云)上本地运行,落地在不需要大量推理或需要快速响应的场景。国内以qwen和Yi系列开源模型为代表,上半年进行了多次迭代。其中qwen2-7b(70亿参数)取得62分,打败了上一代版本的qwen1.5-32b(320亿参数),qwen2-1.5b(15亿参数)打败了Llama-2-13B-Instruct(130亿参数),展现了更小尺寸的模型的极致性能。26我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值,得到胜(差值大于0.5分)、平(差值在-0.5 0.5分之间)、负(差值低于-0.5)。1.整体胜率表现整体胜率表现从整体对战来看,国外领先模型GPT-4o以20.47%的胜率,66.81%的和率占据第一位,显示出其强大的整体能力。紧随其后的是Qwen2-72B-Instruct,胜率为18.86%,和率为65.06%,也展现出优于GPT4-Turbo-0409的实力。同样有着较强实力的模型还有AndesGPT、通义千问2.5、DeepSeek-V2、山海大模型4.0和SenseChat5.0等模型。2.小小模型胜率情况模型胜率情况在200亿以内参数的模型中qwen-2-7b的胜率排在首位,展现出不俗能力。排在2至3位的是Baichuan2-13B-Chat-v2、Yi-1.5-6B-Chat,同样有50%以上的胜和率,表现可圈可点。3.在基础题目上与在基础题目上与GPT-4-Turbo-0409差距有限差距有限从胜率分布数据可以发现,大部分模型的和率都在50%以上。这说明国内外大部分模型在基础题目上与GPT-4-Turbo-0409的水平相近,随着任务难度的提升,不同模型的表现会有一定区分度。结果分析大模型对战胜率分布图来源:SuperCLUE,2024年7月9日27国内大模型成熟度-SC成熟度指数Su p er C L UESu p er C L UE 大模型能力成熟度指数大模型能力成熟度指数-SC-SC 指数指数来源:SuperCLUE,2024年7月9日;SC成熟度指数=国内模型最差成绩/国内模型最好成绩国内大模型成熟度国内大模型成熟度分析分析1.1.高成熟度能力高成熟度能力 高成熟度指大部分大模型普遍擅长的能力,SC成熟度指数在0.8至1.0之间。当前国内大模型成熟度较高的能力是【生成创作】和【语言理解】,也是目前产业和用户侧大模型的重点应用场景。2.2.中成熟度能力中成熟度能力 中成熟度指的是不同大模型能力上有一定区分度,但不会特别大。SC成熟度指数在0.6至0.8之间。当前国内大模型中成熟度的能力是【角色扮演】、【传 统 安 全】、【知 识 百 科】、【工 具 使 用】、【长文本】,还有一定优化空间。3.3.低成熟度能力低成熟度能力 低成熟度指的是少量大模型较为擅长,很多模型无法胜任。SC成熟度指数在0.6以下。当前国内大模型低成熟度的能力是【计算】、【逻辑推理】、【代码】、【精确指令遵循】。尤其在Hard任务的精确指令遵循的成熟度仅有0.23,是非常有挑战性的大模型应用能力。指数指数序号序号能力能力最高分最高分最低分最低分成熟度成熟度SC指数指数成熟度区间成熟度区间1生成创作75650.87高成熟度(0.8-1.0)2语言理解80670.843角色扮演74570.77中成熟度(0.6-0.8)4传统安全79580.735知识百科84610.736工具使用78550.717长文本69490.718计算88470.53低成熟度(0-0.6)9逻辑推理70370.5310代码72180.2511精确指令遵循79180.2328 Chatbot Arena是当前英文领域较为权威的大模型排行榜,由LMSYS Org开放组织构建,它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。其中,皮尔逊相关系数皮尔逊相关系数:0.:0.9090,P P值:值:1.221.22e-5e-5;斯皮尔曼相关系数:斯皮尔曼相关系数:0.0.8585,P P值:值:1 1.1212e-e-4 4 ;说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Chatbot Arena为典型代表),具有高度一致性高度一致性。评测与人类一致性验证1:对比Chatbot Arena29模型列表模型列表可靠性可靠性模型191%模型290%模型399%模型490%平均平均92.5%6月SuperCLUE采用自动化评价的测评方式。为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从2000 道题目中针对4个模型,每个模型随机抽取了100道题目进行人工复审。审核内容及标准包括:评价质量分为:优秀,良好,及格,不及格完全不符合自己的判断完全不符合自己的判断:不及格(60以下)基本符合自己的判断基本符合自己的判断:及格(60或以上)或良好(75或以上)特别符合自己的判断特别符合自己的判断:评价的特别好:优秀(85或以上)最后统计可靠性指标,将基本符合、特别符合基本符合、特别符合的结果认定为是可靠性较高的评价。最终各模型可靠性指标结果如下:通过4个模型的可靠性分析验证,我们发现可靠性数据分别为91%、90%、99%、90%,其中可靠性最低有90%,最高为模型的99.00%。平均有92.5%的可靠性。所以,经过验证,SuperCLUE自动化评价有较高的可靠性有较高的可靠性。可靠性验证说明验证结果评测与人类一致性验证2:对比人工评估30第3部分 多模态多模态能力测评基准能力测评基准1.AIGVBench视频生成综合性测评基准 2.SuperCLUE-Image文生图中文测评基准 3.SuperCLUE-V多模态理解测评基准31AIGVBench视频生成测评基准资讯资讯:针对新闻媒体领域的考察,如采访、宣传片、新闻播报等。广告广告:考察模型或应用针对广告领域的AI视频能力。电影电影:针对电影领域的考察,如剧情、喜剧、爱情、动作等。纪录片纪录片:考察模型或应用针对纪录片领域的视频生成与编辑能力。短视频短视频:针对短视频领域的考察,如探店、旅游、解说等。中华文化场景中华文化场景:考察模型针对中华文化的AI视频能力,如节日场 面、中华礼仪、中华饮食、历史文学、非遗传承等等。六大应用场景六大应用场景AIGVAIGV(Artificial Intelligence Generated VideoArtificial Intelligence Generated Video)指的是利用人工智能技术自动生成视频内容的概念。AIGVAIGVBenchBench旨在通过一系列详尽的评估指标和测试数据集,全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。基准说明测评维度及示例申请测评:申请测评:邮件标题:AIGVBench测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、文生视频大模型简介、联系人和所属部门、联系方式示例Prompt:在一个歌唱类的综艺节目中,一名女歌手身着白衣,坐在钢琴前弹唱,舞台上闪烁着金色和橙色的灯光,灯光暗处有伴奏的乐队。【Dreamina即梦】:4.03分【可灵】:4.42分32基准说明测评维度及示例SuperCLUE-Image中文原生文生图测评基准。中文原生文生图测评基准。是专为中文是专为中文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文设计,提供全面公正的评估框架,覆盖生成质量、多样性和文本一致性等方面的表现。本一致性等方面的表现。SuperCLUE-Image:文生图中文测评基准Prompt:一张街头嘉年华的图像,面具装饰着亮银色羽毛和宝石般的红宝石色点彩。DALLE 3(得分:4.5分)文心一格(得分:4.5分):Prompt:一个红色的苹果。DALLE 3(得分:4.67分)BlueLM-Art(得分:4.67分)申请测评:申请测评:邮件标题:SuperCLUE-Image测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、文生图大模型简介、联系人和所属部门、联系方式33基准说明测评维度随着人工智能技术的飞速发展,多模态大模型及其应用已经成为热点方向。国际上如GPT-4o等模型表现出色(见图1、图2),国内也已经出现多个多模态模型,但大多数现有基准测试以英文或及其翻译版本为主,或侧重选择题形式。虽然容易测试,但无法充分反映中文多模态大模型与用户之间交互的实际需求。为弥补这一差距,我们基于SuperCLUE中文综合性测评基准的经验和积累,推出了SuperCLUE-V。它从基础能力和应用从基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了涵盖了8个一级维度个一级维度30个二级维度。个二级维度。SuperCLUE-V:多模态理解测评基准Prompt:请用文本描述图片中所有的黑猫的位置。Prompt:从所给的四个选项中,选择最合适的一个填入问号处,使之呈现一定的规律性。申请测评:申请测评:邮件标题:SuperCLUE-V测评申请,发送到contactsuperclue.ai,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式34第4部分 行业及专项行业及专项能力测评基准能力测评基准1.Math6数学多步推理 2.代码助手测评 3.RAG检索增强生成 4.Code3代码 5.Agent智能体 6.Safety安全 7.200K中文超长文本 8.Role角色扮演 9.Auto汽车基准 10.ICabin智能座舱基准 11.Fin金融基准 12.Industry工业基准 13.琅琊榜竞技场 14.未来两个月基准发布计划35基准说明测评结果基于测评结果,我们发现:1.顶级模型在数学推理上性能卓越顶级模型在数学推理上性能卓越通 过 测 评 结 果 发 现,顶 级 模 型(如顶 级 模 型(如 G P T-4 o、GPT-4 和文心一言和文心一言4.0)在推理任务中展现了卓)在推理任务中展现了卓越的性能,越的性能,特别是在处理高难度的多步推理任务时。它们在推理能力和准确性方面均达到了较高的标准,证明了当前大模型的先进水平。2.大模型在数学推理上大模型在数学推理上性能明显分层性能明显分层通过对不同模型的综合评估,我们可以看到性能性能上的明显分层上的明显分层。高等级模型在复杂任务上的表现远远超过低等级模型,这反映了在大模型领域内技术和能力的多样性和分层。SuperCLUE-Math6是一个是一个GSM8K的中文升级版,专门设的中文升级版,专门设计来评估和提升中文大模型在数学推理方面的核心能力计来评估和提升中文大模型在数学推理方面的核心能力示例:示例:SuperCLUE-Math6数据集现已开放申请,请使用单位邮箱,将数据研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱,并承诺不向第三方提供。邮箱邮箱:contactsuperclue.ai,标题是:,标题是:SuperCLUE-Math6测试集申请测试集申请 专项基准:SuperCLUE-Math6中文数学多步推理测评基准来源:SuperCLUE36基准说明测评维度及示例帮我生成一段代码让我可以调用 ChatGPT 的 API,并利用它返回一段爬取中国大学排名网址信息的脚本,url:https:/ 文 原 生 检 索 增 强 生 成 测 评 基 准中 文 原 生 检 索 增 强 生 成 测 评 基 准。采 用 了 不 同 于 以 往SuperCLUE评估方法的对比式测评模型,依据不同的任务类型,全方位、多角度地对RAG技术水平进行测评。不同于以往的测评体系,SuperCLUE-RAG还采用了对比式问答模式。除无文档问答类任务以外,针对同一问题进行先后两次提问,第一次不提供任何外部文档信息,第二次人为提供预设文档,对比两次答案的差异。详情可访问:S u p e r C L U E-R A G 中 文 检 索 增 强 生 成 测 评 基 准:www.CLUE 现征集RAG测评,有意愿参与测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE-RAG专项基准:SuperCLUE-RAG中文检索增强生成测评基准38基准说明测评结果目前,中文编程环境缺乏一个专门的评测基准,这限制了中文大模型在代码生成方面能力的客观评估和优化。这一语言和文化差异导致中文大模型在编程任务上的潜力未能得到充分挖掘和利用。为了缓解这一问题,我们推出了SuperCLUE-Code3测评集测评集和基准。和基准。这是一个HumanEval的中文升级版,通过功能性单元测试,专门设计来评估和提升中文大模型在代码生成方面的核心能力。SuperCLUE-Code3(简称SC-Code3)不仅延续了HumanEval高质量,更在多样性和应用广度上进行了适当扩充。现征集代码大模型测评,有意愿参与代码测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE-Code3测评集我们选取了国内外有代表性的11个闭源/开源的模型进行测评。GPT-4-0125-preview作为国际大模型,在加权得分上达到68.00,非加权得分为78.97,明显高于其他模型,尤其是在高级难度得分上达到52.63,表明其对复杂问题的处理能力强。所有模型在初级难度得分上的表现普遍不错,例如GPT-4-0125-preview在初级难度得分为88.89,这表明大部分模型能够较好地处理基础编程任务。高级难度的得分在各模型间表现出较大差异,国际大模型如GPT-4的得分为44.74,而国内部分小模型未超过30分,说明在处理更复杂的编码问题时,大模型的优势更加明显。专项基准:SuperCLUE-Code3中文原生等级化代码能力测评基准39基准说明测评结果我们选取了国内外有代表性的16个闭源/开源的模型进行测评。通过测评结果发现,在通过测评结果发现,在Agent核心核心基础能力上,国内模型已经较为接基础能力上,国内模型已经较为接近或部分超过近或部分超过GPT3.5水平。水平。GPT-4在SuperCLUE-Agent的10个任务中有5个任务表现最佳,这表明GPT4在智能体方面具有非常大的优势,但值得肯定的是,国内有部分模型在某些任务上表现也可圈可点,如ChatGLM3-Turbo在任务分解、多文档问答和检索API能力上表现惊艳。另外,国内开源模型已经具备比较强的竞争力,某些方面超过了一些闭源模型。AI Agent智能体正在最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。AI Agent是一个能够自主理解、规划决策和执行复杂任务的智能体。现有关于Agent能力的测评,主要是在英文场景或任务的测评。目前还没有一个在中文任务和场景上针对中文大模型的全面测评。SuperCLUE-Agent是一个聚焦于是一个聚焦于Agent能力的多维度基准能力的多维度基准测试测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。国内外代表性模型SuperCLUE-Agent十大能力上的表现详情可访问:【新基准】SuperCLUE-Agent:首个AI智能体中文测评基准发布 www.CLUE www.CLUE u p e r C L U E-R o l e:中 文 角 色 扮 演 测 评 基 准 www.CLUE 依然领先幅度较大。但多个中文大模型在汽车行业上具有良好表现(75分或以上),有4个中文大模型在中文的汽车场景的表现超过了GPT-3.5,表明中文大模型在汽车场景上已经具备了的良好的潜力。部分大模型在技术和应用不同维度表现稍显不部分大模型在技术和应用不同维度表现稍显不一致一致。车辆使用指南这一维度上,多个模型达到了80分以上的优异表现,说明在一些对用户有用的任务上(如操作指南、车辆故障诊断、维修保养)已经具备较高的交互成熟度。在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,有一些13-14B中小模型也超过了云端的闭源模型,说明可满足用户需求具备良好能力的端侧模型有非常大的潜力。SuperCLUE-Auto首个汽车行业大模型测评基准首个汽车行业大模型测评基准,它是一个多维度的多轮开放式问题的测评基准。它不仅能评价汽车行业大模型的能力,也能针对具体维度和模型的回答给出细化的反馈。主要包括4大核心基础能力的十余个任务。评估流程:1)设定每个维度下的评估标准;2)针对每一个维度下的问题,基于该维度下的多个评价标准,结合打分规则并使用超级模型作为裁判逐个打分,并获得该题目的得分(即每个维度下的平均分)3)获得每一个维度下所有题目的分数,并计算特定模型(如GPT3.5)在该维度的得分。详情可访问:SuperCLUE-Auto:首个汽车行业中文大模型测评基准发布www.CLUE Turbo,总体表现良好。2.国内大模型在金融能力上的三个梯队国内大模型在金融能力上的三个梯队在首批金融测评中,国内大模型大致可以分为三个梯队:第一梯队包括Baichuan3、GLM-4与MoonShot-v1-128k,其等级为A,低于GPT-4 Turbo,但在国内表现最为突出;第二梯队包括讯飞星火V3.5与文心一言4.0,其等级为B,性能优于GPT-4;第三梯队模型则以部分金融专项大模型为主,等级集中在C及以下。SuperCLUE-Fin(SC-Fin)中文原生金融大模型测评基准)中文原生金融大模型测评基准。依据不同的任务类型,全方位地对金融大模型进行测评。详情可访问:S u p e r C L U E-F i n:金 融 行 业 测 评 基 准www.CLUE u p e r C L U E-I n d u s t r y:工 业 行 业 测 评 基 准 www.CLUE www.CLUE 来 2-3 个 月 S u p e r C L U E 会 持 续 完 善 大 模 型 专 项 能 力 及 行 业 能 力 的 测 评 基 准。现 针 对 于 所 有 专 项 及 行 业 测 评 基 准 征 集 大 模 型,欢 迎 申 请。有意愿参与测评的厂商可发送邮件至contactsuperclue.ai,标题:SuperCLUE专项/行业测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。预告:SuperCLUE通用基准测评8月报告将在月报告将在2024年年8月月27日发布日发布,欢迎反馈意见、参与测评。序号序号文本文本专项基准专项基准计划计划序号序号行业基准行业基准计划计划1SuperCLUE-Math6中文数据多步推理测评基准首期榜单已发布1SuperCLUE-Auto汽车行业测评基准已发布,持续征集模型2SuperCLUE-Code3中文代码能力测评基准首期榜单已发布2SuperCLUE-Industry工业行业测评基准已发布,持续征集模型3SuperCLUE-Agent中文智能体测评基准首期榜单已发布3SuperCLUE-ICabin智能座舱测评基准已发布,持续征集模型4SuperCLUE-Safety中文多轮安全基准首期榜单已发布4SuperCLUE-Fin金融测评基准已发布,持续征集模型5SuperCLUE-RAG中文检索增强测评基准首期榜单已发布5医疗诊断测评基准待发布6SuperCLUE-200K中文超长文本测评基准首期榜单已发布6手机行业测评基准待发布7SuperCLUE-Role中文角色扮演测评基准首期榜单已发布7娱乐行业测评基准待发布8SuperCLUE-Long长文本测评基准待发布8政务行业测评基准待发布9SuperCLUE高阶推理测评基准待发布9教育行业测评基准待发布10SuperCLUE指令遵循测评基准待发布-.更多行业.待发布序号序号多模态基准多模态基准计划计划序号序号AIAI产品基准产品基准计划计划1AIGVBench-T2V中文文生视频测评基准已发布,持续征集模型1SuperCLUE-Coder代码助手测评标准/方案发布2SuperCLUE-Image中文文生图测评基准已发布,持续征集模型2AI搜索产品基准测评待发布3SuperCLUE-V中文多模态理解测评基准标准/方案发布3AI生产力工具基准测评待发布-.更多模态.待发布-.更多产品.待发布未来两个月基准发布计划51第5部分 代表性代表性模型案例介绍模型案例介绍1.Qwen2-72B-Instruct 2.SenseChat5.0 3.山海大模型4.0 4.AndesGPT 5.GLM-4-052052优秀模型:Qwen2-72B-Instruct(阿里云)53SuperCLUE 基准表现:Qwen2-72B-Instruct模型特点:模型特点:简介:简介:适合应用:适合应用:Q w e n 2-7 2 B,是阿里云于2024年6月7日开源的2代大语言模型。参数量为720亿。Qwen2-72B不仅在多语言能力、代码生成、数学推理、长文本处理等方面表现出色,而且在指令遵循和安全性能上也做出了显著提升。Qwen2-72B在代码、生成创作、角色扮演、长文本和精确指令遵循等基础能力上排名国内第一,在计算、逻辑推理、工具使用能力上排名国内前三。综合来看,Qwen2-72B整体能力不俗,引领全球的开源生态,是一个非常有竞争力的通用开源大模型。Qwen2-72B在理科、文科和高难度任务上的能力均不俗,可应用于推理、数理分析、信息处理或相对专业复杂场景。基于在SuperCLUE测评上的表现,重点推荐应用于工业、金融、医疗、汽车等垂直专业场景。另外,在办公等生产力应用场景中也会有不错的表现,优秀模型:SenseChat5.0(商汤)54SuperCLUE 基准表现:SenseChat5.0模型特点:模型特点:简介:简介:适合应用:适合应用:S enseChat 5.0是 商 汤 科 技 推 出 的 大 模 型 日 日 新5.0,采 用 混 合 专 家 架 构(MoE),参数量高达6000亿,支持200K的上下文窗口。SenseChat5.0采用了自研的多阶段训练链路,包括三阶段预训练、双阶段SFT和在线RLHF。SenseChat5.0在理科、文科能力上表现较为均衡,其中语义理解、代码、角色扮演、生成创作、指令遵循能力上排名较靠前。综合来看,SenseChat5.0整体能力不俗,位于国内大模型第一梯队,是一个非常有竞争力的通用大模型。SenseChat5.0可应用于数据处理、代码生成等相对专业复杂场景。基于在SuperCLUE测评上的表现,重点推荐应用于汽车、工业、金融、医疗等垂直专业场景。另外,在角色扮演和指令遵循能力要求较高的场景中也会有不错的表现,优秀模型:山海大模型4.0(云知声)55SuperCLUE 基准表现:山海大模型4.0模型特点:模型特点:简介:简介:适合应用:适合应用:山海大模型是云知声于2023年5月24日发布的大语言模型,已于近期升级到4.0版本。目前山海大模型已深入到智慧医疗、智慧教育、知识管理、智慧营销、智能客服等具体场景。山海大模型4.0在计算、逻辑推理、代码的理科能力上表现出色,均跻身国内前3名,文科中的各项能力表现较为均衡,在精确指令遵循能力上还有一定提升空间。综合来看,山海大模型4.0整体能力位于国内大模型第一梯队,是一个非常有潜力的通用大模型。山海大模型4.0可应用于数理计算、智能编程和复杂推理等相对专业的应用场景。基于在SuperCLUE测评上的表现,重点推荐应用于医疗、教育等垂直专业场景。优秀模型:AndesGPT(OPPO)56SuperCLUE 基准表现:AndesGPT模型特点:模型特点:简介:简介:适合应用:适合应用:AndesGPT是OPPO自主训练的大语言模型。于11月16日2023OPPO开发者大会上首次推出。AndesGPT对话增强、个性专属和端云协同三大技术特征。目前已接入OPPO智能助理新小布,可用于手机助手、内容创作、超级问答、专属AI、日程管理等场景。AndesGPT在逻辑推理、代码、角色扮演、长文本能力上排名国内前一;在工具 使 用、传 统 安 全 能 力 上 排 名 国 内 前 三;在 计 算 能 力 上 排 名 国 内 前 五。AndesGPT在专业技能和语言任务上均有不俗表现,综合来看,AndesGPT是一个各项能力较为均衡的大模型,在国内大模型厂商中很有竞争力。AndesGPT聚焦在移动设备端的应用。主要涵盖四个方向:知识、记忆、工具、创作。另外AndesGPT同步支持文生文、文生图等场景,可以为用户多模态的应用场景能力。优秀模型:GLM-4-0520(智谱AI)57SuperCLUE 基准表现:GLM-4-0520模型特点:模型特点:简介:简介:适合应用:适合应用:GLM是智谱AI和清华大学推出的通用大模型,2024 年 1 月 16 日发布GLM第四代通用基础模型。2024年5月20日推出GLM4的升级版本GLM-4-0520。GLM-4-0520在生成创作、知识百科、工具使用和精确指令遵循等能力上表现出色,相较而言GLM-4-0520较为擅长文科任务。综合来看,GLM-4-0520整体能力位于国内大模型第一梯队,是一个非常有竞争力的通用大模型。可应用的场景相对广泛,根据SuperCLUE测评结果,优先推进在AI智能体方面相关的应用,包括任务规划、工具使用相关的场景。另外在知识信息搜索应用上的效果会比较不错。广告文案、文学写作方面也是一个很好的选择。法律声明法律声明版权声明版权声明本报告为SuperCLUE团队制作,其版权归属SuperCLUE,任何机构和个人引用或转载本报告时需注明来源为SuperCLUE,且不得对本报告进行任何有悖原意的引用、删节和修改。任何未注明出处的引用、转载和其他相关商业行为都将违反中华人民共和国著作权法和其他法律法规以及有关国际公约的规定。对任何有悖原意的曲解、恶意解读、删节和修改等行为所造成的一切后果,SuperCLUE不承担任何法律责任,并保留追究相关责任的权力。免责条款免责条款本报告基于中文大模型基准测评(SuperCLUE)6月底的自动化测评结果以及已公开的信息编制,力求结果的真实性和客观性。然而,所有数据和分析均基于报告出具当日的情况,对未来信息的持续适用性或变更不承担保证。本报告所载的意见、评估及预测仅为出具日的观点和判断,且在未来无需通知即可随时更改。可能根据不同假设、研究方法、即时动态信息和市场表现,发布与本报告不同的意见、观点及预测,无义务向所有接受者进行更新。本团队力求报告内容客观、公正,但本报告所载观点、结论和建议仅供参考使用,不作为投资建议。对依据或者使用本报告及本公司其他相关研究报告所造成的一切后果,本公司及作者不承担任何法律责任。SuperCLUE排行榜官方地址:排行榜官方地址:https:/官网:官网:www.CLUEGithub地址:地址:https:/ 18806712650 朱老师朱老师 17621237819(微信同号)(微信同号)立足业内领先的第三方大模型测评机构,致力于为业界提供专业测评服务立足业内领先的第三方大模型测评机构,致力于为业界提供专业测评服务:扫码扫码关注关注行业与专项大模型测评行业与专项大模型测评聚焦测评大模型在行业落地应用效果,包括但不限于汽车、手机、金融、工业、教育、医疗等行业大模型应用能力,中文Agent能力测评、大模型安全评估、多模态能力测评、个性化角色扮演能力测评。通用大模型测评通用大模型测评提供大模型综合性评测服务,输出全方位的评测报告,包括但不限于多维度测评结果、横向对比、典型示例、模型优化建议。多模态大模型测评多模态大模型测评多维度全方位测评多模态大模型的基础能力与应用能力,包括但不限于视频生成基准测评、文生图测评、多模态理解测评等。AI应用测评应用测评提供AI大模型落地应用及工具测评,包括但不限于生产力工具、代码助手、AI搜索等应用;AI PC、AI手机、XR设备及具身智能等设备端应用。大模型深度研究报告大模型深度研究报告提供国内外大模型深度研究报告,全面调研与分析国内外大模型技术进展及应用落地情况,为企事业单位提供及时、深度的第三方专业报告。业务合作:请简要描述需求至合作邮箱 contactsuperclue.ai联系我们联系我们SuperCLUE交流交流合作合作

    浏览量55人已浏览 发布时间2024-07-12 59页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 百度智能云:2024百度智能云案例集:大模型激发新质生产力(73页).pdf

    目录010203040506070507101316414346495254565962666920222528313437沈阳智能计算中心石景山大模型产业创新基地北京海淀“接诉即办”智能问数广东省投资广东AI助手河南沈丘基层政务治理项目蔚来汽车长安汽车吉利集团极越汽车中国邮政储蓄银行鹏华基金管理有限公司某证券股份有限公司金山办公好未来上海交通大学华北电力大学山东省港口集团有限公司中化信息技术有限公司上海山源电子科技 股份有限公司中天钢铁集团有限公司深圳市燃气集团股份有限公司贵阳AI信控京雄高速智慧城市汽车云智慧金融泛科技智慧教育智慧工业智能交通大模型加速应用落地助推新质生产力发展2013百度开始布局研发深度学习框架文心大模型 2.0百度文心一言启动研发百度推出文心大模型 1.0文心大模型 3.02019.32019.72021.1220222023.3.16百度文心一言新闻发布会百度智能云推出千帆大模型平台2023.3.27百度文心大模型 No.1200,000,00085,000 14,000 190,000 IDCAI大模型技术能力评估报告,2023百度综合评分第一文心一言用户数千帆服务客户数千帆精调模型数千帆应用开发数文心一言完成四次重大技术升级单机 QPS 每秒查询推理响应速度提升 10 倍文心一言向全社会开放文心大模型 4.0 发布10 余款 AI 原生应用同期发布AI 原生应用开发工作台“千帆 AppBuilder”上线百度智能云发布千帆大模型平台 2.0文心大模型 3.52023.4.242023.6.212023.8.312023.9.52023.10.172023.12.28文心一言用户规模突破 1 亿百度智能云千帆大模型一体机发布2024.3.21“千帆 AppBuilder”全新升级定位产业级 AI 原生应用开发平台“千帆 ModelBuilder”2 个文心大模型升级3 款轻量级大模型、2 个垂直场景模型发布百度智能云万源智能计算操作系统发布文心一言用户规模突破 2 亿2024.4.92024.4.164 智慧城市大模型全面赋能城市管理和服务创新升级,用新质生产力驱动产业发展,携手打造区域数字经济发展标杆沈阳智能计算中心石景山大模型产业创新基地北京海淀“接诉即办”智能问数广东省投资广东 AI 助手河南沈丘基层政务治理项目5 沈阳首府智算赋能资产投资管理有限责任公司是国有独资企业,主要开展沈阳智能计算中心新基建项目的开发与运营工作,聚焦开发区数字经济主导产业方向,积极开展数字基础设施的建设,发展数字经济服务平台,培育壮大新动能,形成多点支撑、多业并举、多元发展的产业发展新格局,推动各个产业场景的数字化转型,提升整体经济的数字化水平。沈阳智能计算中心全国首个集AI底座、大模型、多场景为一体的全栈 AI 设施客户介绍沈阳智能计算中心鸟瞰效果图辽宁省“十四五”数字政府发展规划提出,以构建大数据深度科学辅助的智慧高效数字政府为目标,一年强基础、两年更完善、三年上台阶,到“十四五”末数字政府建设水平进入全国前列。利用新一代信息技术,用数字化思维加快改革,推进政务流程再造、业务协同,完善数字基础支撑体系,加速数据的融合、共享和利用。项目挑战沈阳首府经济开发区为了积极响应国家和辽宁省数字经济产业目标,与百度联合启动数字经济整体设计,共同规划打造数字经济人解决方案6 智慧城市沈阳智能计算中心实体效果图沈阳首府经济开发区依托百度智能云行业领先的AI和云服务能力,充分发挥产业场景优势和数据资源优势,深植“数字基因”,加快皇姑“数字蝶变”,不断提高AI底座能力,落实“数字辽宁、智造强省”的发展目标,赋能区域数字化转型,打造高性能、高可靠性、绿色低碳的新型公共基础设施,为元宇宙、工业互联网、文化旅游、生物医药、航空航天等沈阳特色重点产业的数字化转型和智能化升级提供AI大模型公共服务底座,未来将吸引产业链上下游的相关配套企业入驻,促进沈阳乃至辽宁省的产业数智化转型升级。推动产业创新与资源聚集,高效支撑数据开放共享、智能生态建设,实现新兴产业培育和大数据、人工智能、云计算、物联网等相关产业的积聚,为区域数字化转型及区域产业智能化升级提供强大动力,稳固人工智能生态产业链,带动沈阳市数字经济高质量发展。推动智能应用场景推广落地,通过本项目的建设和持续运行,建立面向工业制造、文化旅游、智能交通、城市管理、人才培养等领域的产业赋能中心,促进重点领域突破发展,带动区域传统产业智能化创新。客户收益工智能产业园区,以“比学赶超”的精神全面加速项目建设,项目实现了“当年拿地、当年开工、当年封顶”的“皇姑速度”。沈阳智能计算中心赋能沈阳特色重点产业的数字化转型和智能化升级,提供了人工智能公共服务基础,落地“1产业园 4中心 N个场景”,构建四大中心即为:AI中心、创新中心、人才中心、赋能中心,围绕四大中心构建N个数字经济场景,发挥产业场景优势和数据资源优势,最终完成数据中心、AI设备、人工智能底座、千帆大模型等端到端的产品解决方案。7 北京市石景山区打造“百度智能云千帆大模型产业(北京)创新基地”,致力于成为北京人工智能领域标杆基地。该基地围绕建设运营服务展开,包括搭建大模型技术平台、孵化运营平台场景,引进与孵化科技企业,以及引进与培育人才等。基地各方将努力打造共赢生态,推动人工智能和大模型的创新发展。客户介绍石景山大模型产业 创新基地全国首个千帆大模型产业创新基地落地8 智慧城市在企业转型升级过程中,石景山区已有众多企业积极采用百度深度学习框架飞桨(PaddlePaddle)作为技术支撑,对“教练员”的专业指导、“试验田”的实践平台以及“交易所”的资源对接需求日益凸显。面对技术资源短缺,许多企业渴望利用人工智能技术提升业务效率和创新能力,但缺乏相应的技术支撑和人才储备。为应对这一挑战,百度智能云千帆大模型产业(北京)创新基地将发挥通用人工智能公共服务引擎的作用,为开发者提供深度学习及大模型工具集,助力企业提升技术实力。同时,随着人工智能技术的快速发展,对专业人才的需求日益旺盛。为此,基地将构建人工智能人才引擎,开展实操培训,为本地 AI人才提供学习和成长平台。如何将人工智能技术与产业发展深度融合,实现产业赋能,是摆在 AI 面前的又一难题。为此,基地将建立通用人工智能产业引擎,打造互动平台和展示窗口,推动企业间的交流与合作。通过打造这一创新基地,百度旨在通过“三引擎”驱动的方式,解决石景山区人工智能产业发展中面临的挑战,推动人工智能技术与产业发展的深度融合。相信在百度团队的努力下,这一创新基地将成为推动人工智能产业发展的重要力量,为石景山区乃至整个北京市的经济发展注入新的活力。解决方案为助力石景山区实现通用人工智能大模型产业集聚区建设目标,百度团队深挖石景山区产业发展脉络和企业发展诉求,帮助石景山区规划企业提质升级、产业人才培育、场景开放创新和平台工具赋能的一体化方案。让人工智能产业交流活动“火起来”,大模型平台“用起来”,创新创业的气氛要“热起来”。项目挑战9 千帆大模型平台在北京城区落地生根,既给石景山区带来创新基石,又树立了百度与地方政府合作全新模式。通过“一基地三引擎”服务模式,营造人工智能创新创业氛围:2024 年初,已有两场百度智能云新品发布会在首钢园举办,吸引大量人工智能产业链企业关注和参与;百度将保障每年在石景山区举办4 场优质论坛及交流活动。挖掘潜力企业开展培育赋能:通过前期调研,百度团队已经与多家属地企业达成基于千帆平台共创 AI 原生应用的意向。人工智能人才引入与培养:通过百度 AI 品牌课程和 AI 领域教育资源,培训本地企业、开发者及相关人才,伴随企业进驻,带动人工智能大模型产业领域高层次人才。打造人工智能大模型示范应用:在制造、教育、医疗、能源、交通、金融、文旅和城市管理等垂直行业领域,依托百度平台带动传统产业进行智能化改造升级。客户收益智慧城市10 政务 GOVERNMENT文心大模型赋能,助力“接诉即办”智能化革新北京海淀“接诉即办”智能问数海淀区立足科技创新出发地、原始创新策源地、自主创新主阵地的功能定位,持续聚焦前沿领域,服务壮大国家战略科技力量,支持多元创新主体开展关键核心技术攻关。海淀区拥有中关村国家自主创新示范区,作为改革创新的试验田,以全国科技创新中心核心区建设为目标,加快中关村科学城建设,要当好“首都率先基本实现社会主义现代化的排头兵”,成为新技术、新产业、新业态、新模式的最佳策源地和试验场。接诉即办是践行初心使命的生动实践,是坚持党建引领基层治理、服务群众的有效机制。北京市接诉即办工作条例指出,要牢牢站稳人民立场,坚持“有一办一”,用心用情用力解决群众急难愁盼问题;同时,深化主动治理、未诉先办,集中破解高频共性难题;客户介绍项目挑战11 强化条块结合、部门协同、共建共治,更好发挥吹哨报到作用,提升基层自主治理能力。发挥人民群众主体作用,探索形成以接诉即办为牵引的超大城市治理“首都样板”。提升接诉即办智能化水平,用好民生大数据调动和保护基层干部积极性。智慧城市接诉即办工作需要建立对市民诉求快速响应、高效办理、及时反馈、主动治理的为民服务机制,努力探索以市民诉求驱动超大城市治理的有效路径,是首都高质量发展的题中之义。接诉即办系统目前是全市实现市级区街镇个人完整闭环的系统之一,2023 年接诉即办平均每月受理量约16万余件,记录的案件涉及到各个部门、各个行业,之前只能通过人工给案件打标签进行分类和关键字搜索的方式进行统计,标准难以统一,导致派单、处置、统计、预警等多方面工作难度增加,虽然大量数据无法发挥其深度价值,但数据链完整,具备垂直大模型训练的基础。解决方案IOCC 领导问数数字人可视化场景所有通用大语言大模型的特点就是“交互简单、找得快、记得牢,总结得好”。通过大语言模型赋能接诉即办场景,可以提供更加人性化、口语化的对话形式,交互方式、服务体验更符合人与人之间的交互逻辑,大幅度提升工作效能。百度文心大模型在全国发客户收益12 智慧城市IOCC 领导问数数字人可视化场景布的模型中,具备强大的理解、生成、逻辑和记忆综合能力。本场景基于百度文心大模型进行二次训练,深度理解案件的语义实现智能分类、智能统计,并能短时间内结合所有历史数据进行汇总统计、趋势分析,数据分类比较、核心内容提取摘要、通用案件处置建议等功能。本场景基于海淀区接诉即办实际的业务需求,利用大模型实现智能分拣,包括智能填单、自动分类等;智能分析并预警,包括苗头性事件和周期性事件等;以及智能问数,包括问三率、问工单、问状态、问分布等,同时支撑海淀接诉即办IOCC 及业务系统智能化升级。主要实现了以下能力:第一、通过大语言模型赋能接诉即办场景,可以提供更加人性化、口语化的对话形式,交互方式、服务体验更符合人与人之间的交互逻辑,可全面提升接诉即办坐席及其他工作人员在日常处置办理过程中的效率和准确性,大幅度提升工作效能。第二、让原有固化的驾驶舱变得可灵活洞察、动态生成,查找数据、计算指标、简单指标统计由原来的3天提升到1分钟以内,图表绘制、可 视 化 呈 现由原来的5天减少到半小时以内。13 大模型赋能招商 AI 大使,助力广东省招商引资广东省投资广东 AI 助手广东省政务服务和数据管理局是广东省机构改革新组建的单位,主要负责统筹推进广东省政务服务体系建设,组织推进政务服务标准化、规范化、便利化,承担行政审批制度改革、公共资源交易平台管理等相关工作,协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字广东、数字政府、数字经济、数字社会规划和建设等工作。客户介绍14 招商引资是广东省经济高质量发展的必要且核心的一环,广东省各地市的招商引资大会一直采用线上招商会、熟人推荐等传统模式开展,存在投入大、成本高、成效低等常见问题。同时,招商资源分散、招商数据缺乏有效治理,招商政策复杂多变,也加大了实现招商匹配自动化的难度,让潜在招商目标无法及时、精准获取招商资源及政策信息,间接影响招商建设质量和效率。项目挑战投资广东AI助手,依托百度文心大模型,对百度UNIT智能对话平台进行重构升级,集成广东省海量资源与政策数据,扩充招商知识,通过训练和优化,让AI 助手成为广东招商“百晓生”,再通过大模型的总结和生成能力,增强对市民口语化问题的理解,让AI助手答得更准更高效。投资广东AI助手,现阶段具备招商资源(园区、厂房、楼宇、项目、地块、活动等)结构化数据的精准匹配问答;具备招商政策文本文档非结构化数据的自然语言问答和生成,实现招商解读、摘要、总结、搜索等能力。试点地市建设上,在百度文心大模型的加持下,对河源的全量招商资源和招商政策进行学习、训练、精调,2个月内完成了模型训练和上线,实现广东AI招商试点的资源及政策场景的咨询问答服务,现阶段问询准确率达 90%以上,随着不断优化,准确度和服务满意度将会双效提升。解决方案扫一扫立即体验大模型建设投资广东AI助手,产生的客户收益主要体现在提高招商引资效率、优化客户服务体验、降低运营成本以及发挥示范引领作用。客户收益智慧城市15 提高招商引资效率:通过AI助手,政府能够更高效地提供招商引资咨询服务,满足客商企业问政策、查信息、找资源的需求。这大大减少了信息不对称问题,提高了招商资源配置效率,从而有助于吸引更多的投资,促进地方经济发展。优化客户服务体验:AI助手能够提供实时、智能、便捷的投资咨询服务,帮助客商企业快速获取投资政策、招商资源等关键信息。这不仅节省了客商的时间和精力,还提高了他们的满意度和信任度。降低运营成本:传统的招商引资咨询服务需要大量的人力物力投入。而AI 助手的引入,可以在一定程度上替代人工服务,降低政府部门的运营成本。发挥示范引领作用:广东AI助手的成功实施,为政务大模型的应用探索积累了引领示范经验。这不仅提升了广东省在数字化转型方面的形象,还可能吸引更多的地区和行业效仿,推动整个社会的数字化转型进程。智慧城市广东 AI 投资助手广东 AI 投资助手16 助力基层政务治理智能化打通服务居民“最后一米”河南沈丘基层政务治理项目武汉中卫慧通科技有限公司作为国内领先的基层政务服务商,提供专业高效的基层政务治理服务的 SaaS 平台,打造党建引领、基层治理、协同宣发、积分体系等场景。沈丘县隶属于河南省周口市,位于河南省东南部,与安徽省界首市接壤,总面积 1080 平方公里。在最新一次人口普查中,沈丘的常住人口达 90 多万。对比同等级别的县城,沈丘可以算得上是人口大县。人口基数大、外出务工人口多、人员流动性大。便民服务借助 AppBuilder 平台的角色指令、通用组件(语音识别、客户介绍项目挑战解决方案17 Online-Search 等)、标准追问、标准提示等能力,基于居民群、个人助理、小程序/公众号、H5 等服务端提供便民咨询能力,并借助政府机构发布的政策、文件等内容,沉淀具有地域特色的行业知识库。1.可以和智能助手就政务咨询办理进行互动,并获得基于本地知识库打造的快速知识回复,如果本地知识库未收纳标准知识,则基于安全回复框架内的 Online-Search 能力进行回复。2.基于自然语言(关键词提取、语义解析等)技术,快速识别用户的意图并结合 SOP 技术形成符合个人习惯的日程安排。政务服务借助AppBuilder、ModelBuilder等平台的通用组件、自定义模型、自定义组件、NLP、Workflow、GBI 等能力,能够围绕基层政务提供 Copilot 及 Insight 相关能力。政务人员 Copilot 政务端转工单流程1.为基层政务人员在常用巡查、矛盾纠纷走访过程中,基于自然语言(关键词提取、语义解析等)技术,结合政务规范表单(地方)快速识别用户的意图转换快速填报并提交工单。2.工单流转过程中,基于政务办事标准流程,由 AI 替代人工,完成工单的创建、流转、审核、反馈、评价、完结等动作。信息分析类政务端转工单流程1.在和群众日常信息沟通过程中,基于信息爬取、数据治理、数据存档等手段及方案,快速形成原始政务语料源。2.通过自然语言(关键词提取、语义解析、情绪提取等)技术,完成政务关键词库的对比,根据对比的结果及 AppBuilder 平台中Workflow 组件能力完成节点判定及各类别工单分发、分派。3.工单流转过程中,基于政务办事标准流程,由 AI 替代人工,完成工单的创建、流转、审核、反馈、评价、完结等动作。智慧城市18 在沈丘县的居民微信群、政务小程序中上线了随叫随到的“居民助理”。无论是医保缴费、婚姻登记,还是户籍办理,“居民助理”都能进行详实、精准的解释说明。这个小助理的背后,就是武汉中卫慧通通过百度智能云千帆 AppBuilder 知识问答应用,构建当地政务知识库,让“居民助理”能够高效、准确地回答居民问题。在助力基层政府打通服务居民的“最后一米”基础之上,通过语音转文字框架式信息采集填入,解放了基层政务工作者数据采集的繁忙双手,同时小程序 AI 智慧助理能帮助政府为居民提供 24 小时不间断咨询服务,助力企业在服务政府客户的路径中更加智慧化、智能化、高效化,有效提升政务服务居民满意度。中卫慧通产品矩阵接入百度文心大模型后,整体服务水平大幅度提升,其中基层网格员服务居民效率提升 15%,居民服务响应速度提升 30%,居民满意度提升 50%。客户收益产品功能展示智慧城市19 百度 AI 价值落地的主战场,目前已覆盖 22 个行业、9 大领域、18 个区域,保持连续六年高速增长山东省港口集团有限公司中化信息技术有限公司上海山源电子科技股份有限公司中天钢铁集团有限公司深圳市燃气集团股份有限公司智慧工业20 大模型引领港口行业新质生产力山东省港口集团有限公司山东省港口集团有限公司是山东省属国有重要骨干企业,总部位于山东青岛,旗下拥有青岛港集团、日照港集团、烟台港集团、渤海湾港集团四大港口集团,以及投控、港湾建设、物流、航运等12个板块集团,共有21个主要港区、370余个生产性泊位、340余条集装箱航线,正构建“依托港口的一流的综合服务体系”核心竞争优势,加速世界级港口群建设。2023年,货物吞吐量突破17亿吨,集装箱量突破4000万标箱。装卸效率、自动化水平全国领先,货物吞吐量、集装箱吞吐量位居世界前列。山东港口集团已初步建设信息化及数字化的基础设施,但随着业务复杂性和不确定性增加,亟需推进以大模型技术赋能山东港口智慧化转型升级,为各场景应用提供基于大模型的原生应用。主要面临技术、数据、成本和隐私安全等方面的挑战。大模型项目技术复杂度高,需要强大技术实力和人才储备。大模型项目对于数据质量问题、归集慢、预处理时间长也带来困难。大模型项目投入大,需考量性价比和投入产出情况。此外,港口数据关键,必须严格遵守隐私和安全法规。客户介绍项目挑战山东省港口集团有限公司21 1.建设山港集团大模型统一门户,提供问答界面和私有化大模型、公有云大模型的切换功能;2.建设集团制度智能问答助手,通过大模型实现对集团公司制度的快速问询,支持多轮对话管理、信息来源定位等功能;3.建设集团智慧运营助手,在山东港口智慧大脑办公 APP 的企业看板中实现经营指标的快速问询,以图形化报表、文字等方式进行展示;4.建设大模型试点应用所需算力资源池,在集团公司层面集中部署以GPU为核心的高性能服务器,确保为大模型的微调、推理和存储提供充足的算力支持。实现港口“人、机、货、船、场”等生产要素高精度汇聚,有效提升港口堆场利用率及堆场周转率,实现外部司机作业效率大幅提升,减少司机等待时间。下一步,山东省港口集团将依托百度港口大模型、百度地图和调度算法能力,对主要作业港口内外部司机进行生产要素上图、作业流程可视化、司机作业智能调度,打造全国乃至世界首个港口大模型司机助手。解决方案客户收益智慧工业22 大模型及 AI 技术引领创新应用探索实践中化信息技术有限公司中化信息技术有限公司(简称“中化信息”)是世界 500 强企业中国中化控股有限责任公司的直属数字科技公司,依托中国中化的数字化转型实践,建立起从咨询、设计到研发、交付及运维的服务价值链,致力于推动数字科技与产业深度融合,引领化工行业智能化发展。随着中国中化数字化工作走深走实,新一代信息技术逐渐深入到工程化领域,成为新质生产力驱动产业变革的重要因素。中化信息作为中国中化数智化转型的先锋队,肩负着数字科技与化工产业业务场景深度融合的历史使命。客户介绍随着业务拓展与决策复杂度上升,需进一步提高员工从多源信息碎片化系统中快速获取信息的效率,提升员工办公体验。在科研领域,需提升研发过程分散在各网站文献、业务系统中专业信息的获取效率,项目挑战23 基于百度智能云千帆AppBuilder,实现了“化小秘”知识库的集成,通过“化小易”用户端进行用户交互,可以在不同系统调起同一界面,快速发起知识、制度、流程等多个场景的问答。如简单的APP密码修改,相较于传统人工电话服务的方式,运营成本高,信息获取率低,现在只需要通过通用知识问答入口,输入问题,就可以快速得到解决方案示意。请假流程,出差申请,财务申报等流程方面大大提升了办事效率与体验感。在智能研发方面,智能分子信息与合成设计系统通过 API 方式被百度智能云千帆 AppBuilder 调用,之后接入“化小易”用户端,实现新材料研发中化学分子特性的高效获取和新材料分子合成路线的智能推荐,彻底告别手动检索文件,且通过快速搜索进行知识溯源。在安全生产方面,按照“云边协同”的模式,在中国中化总部侧建设工业视觉智能应用平台,具备算法仓库、算法任务管理、资源调度管理、应用管理、视频监控一张图等功能,在企业侧对生产区域内不安全行为进行实时视频分析,形成报警数据,作为考核、提醒、督促企业提升安全管理的依据。高效信息管理与精准获取:千帆大模型平台实现对中国中化通用办公场景信息碎片化知识的高效管理,确保关键信息能够被精准获取;降低运维成本与效率显著提升:降低了运维人员劳动强度和运维成本,办公事件处理效率也显著提升;数字化办公体验提升:通过快速响应和精准问答,产品显著提升解决方案客户收益智慧工业辅助专家快速准确做出研发决策;在安全生产领域,视频数据分散在各生产企业,需解决传统视频监控识别算法准确率低、企业运维管理难度大、安全隐患响应和处置不及时等难题。24 智慧工业工业视觉智能应用平台基于 AppBuilder 研发信息获取业务交互示意图了中国中化员工数字化办公的体验;提升新材料研发过程信息获取的效率,辅助专家作出精准决策。将高级科学家的思维、经验以及解决问题模式流程化,助力每一个研发人员快速成长为有经验的专家;通过工业视觉智能应用平台实现了安全生产视觉数据的接入和管理,提升了企业安全事件响应效率。25 大模型助推矿山智能供电系统新变革上海山源电子科技股份有限公司上海山源电子科技股份有限公司是智慧矿山行业头部企业之一,尤其是煤矿供电系统在行业内具备领先地位,拥有智能云供电系统等多款明星产品。供电系统是矿山核心的生产支撑系统,随着矿山自动化和大型矿山开采技术的演进,对供电系统的有效性、可靠性、安全性及可维护性的需求在日益增长,随着高中低压各类配电柜等电力设施逐年运行增加,系统负荷逐年增大,长时间运行的老旧设备也在同步增加,供电设备的健康状况、检修的及时性和高效对矿山的的影响日益重大。在“集中监控、区域运维”的大背景以及“提质增效”的要求下,运用先进的人工智能、知识图谱、多模态大模型构建行业级供电系统专业应用平台,为设备检修提供知识助手、故障诊断、作业票管理、消缺辅助、风险管控、趋势分析等应用能力,是新型矿山企业精益运营的重要趋势和必然要求。目前,矿山企业在智能化升级的过程主要面临五个方面的问题:1.系统体感交互复杂;客户介绍项目挑战26 2.知识获取成本高;3.设备业务特征被丢弃;4.缺乏知识的智能化应用;5.智能化的支撑力不足、AI 门槛高见效难。综上,面向供电系统缺陷识别、故障诊断、状态检修等深度智慧化需求,针对当前人工智能认知推理模型“样本要求高、标注成本大、参数调优难、迁移性能差”等技术瓶颈,结合人工智能应用向“模型高度复用、知识深度关联、业务轻量适配”演进的发展趋势,构建企业供电系统大模型,可大幅降低业务的专用高精度模型研发及应用门槛,推进新能源设备巡检从浅层“感知智能”向深层“认知智能”演进,进一步提升供电管理的数字化和智能化水平。基于此,百度智能云通过百度文心大模型能力搭建电力系统调度、检修的专业应用系统,实现技术咨询、操作引导、检修指导、倒闸作业票生成等业务:方案特色:实现了矿山智能供电系统在知识获取和IT系统交互上的革新,提升了矿井工作效率LLM与供电管理业务深度融合,通过大语言模型精准理解用户需求,并拆解用户指令,辅助高效完成工作,创造一种新的IT体验模式。利用LLM生成式能力,可对用户指令进行拆解,检索相关数据并萃取形成各类分析报告,解放专业人员在数据分析、方案编制、报告编制等方面的精力投入,高效输出成果辅助运行决策。系统应用交互模式创新,实现基于对话方式的页面交互模式,使得系统的应用更简单、高效,并支持与数字人等技术进行融合,满足各类人员不同场景的应用需求。解决方案方案构成智慧工业27 1.“电博士”通过交互式对话调用智能供电系统智慧工业2.“电博士”实现煤矿越级跳闸等复杂故障快速定位3.“电博士”快速生成供电恢复方案辅助企业员工高效获取专业知识,降低获取成本70%以上;降低对厂商等服务机构的依赖,减少运维作业成本30%以上;提升数据分析、各类检查分析报告编制等工作效率,减少企业的人力成本投入20%以上;提高供电系统可靠性和安全性,减少生产停电时间30%,提高生产效率;提高供电应急事件工作中的及时性,减少人员和财产损失;实现了从数据采集、问题发现到决策执行的闭环,开创了大语言模型在煤矿行业应用的先河,为煤矿智慧化创建了范例。客户收益28 大模型首次在钢铁行业客户业务场景落地,成为企业各类业务人员的智能分析决策助手中天钢铁集团有限公司中天钢铁集团有限公司总部位于江苏常州,成立于 2001 年 9 月,目前已发展成为年营业收入近 2000 亿元,业务涵盖钢铁冶炼、钢材深加工、现代物流、生态农业、教育体育、酒店商贸等多个板块的大型钢铁联合企业。已连续十九年荣列中国企业 500 强,位居 2023 年中国企业 500 强第 175 位,制造业 500 强第 83 位,江苏民营企业 200 强第 8 位。荣获“第六届中国工业大奖”“国家技术创新示范企业”“全国十大卓越品牌钢铁企业”“国家级智能制造示范工厂”“江苏省创新型领军企业”等荣誉称号。随着中天钢铁集团的业务发展及规模扩大,中天钢铁集团进入下游钢帘线行业并计划打造金属材料深加工行业的第一家灯塔工厂,打客户介绍项目挑战29 智慧工业造灯塔工厂需要在业务场景中应用 AI、大数据等新兴技术打造灯塔工厂用例,但是如何将先进的大模型技术与中天的实际业务场景结合并产生价值是极具挑战的工作:1.打造灯塔工厂用例意味着要创新引领,并无成熟案例可参考;2.集团最初规划实施的信息化系统主要是为了满足特定的业务需求,数据孤岛现象严重,并未照顾到后续跨域的数据分析需求;3.集团各板块在生产、销售、财务、人力资源等各个方面的数据和信息量不断增加,无法高效地管理和利用这些数据和信息。基于此,百度智能云为中天钢铁集团构建:1.数字化底座,将企业生产、OA、设备、检化验等系统的数据进行打通,并基于 AI 及大模型应用的角度对数据进行治理,并形成企业数据资产;2.基于大模型的自助数据分析工具,实现数据真正服务于企业管理者及业务部门,推动基于数据进行决策的文化;3.融合大模型、AI 等技术并结合设备、采购、质量等领域的业务场景打造先进用例。其中典型用例如下:*通过基于大模型的智能问答助手,用户可通过语音输入,理解业务人员对生产生活等数据的查询和知识问询意图。并依托于中天钢铁大数据平台,对企业生产、生活等数据进行抓取、整合、清洗,并集成到开物企业数智化平台,实现智能问数和智能问表能力。*通过智能运维助手的知识智能总结,结合历史相似故障数据和外网行业公开知识,推荐故障处理解决方案。并支持运维工作人员快速获取包括故障维修措施、设备参数、部件参数、设备更换记录、设备原理知识、设备操作规范等信息,辅助工作人员学习设备运维知识,高效完成现场设备运维。解决方案30 打造基于大模型的综合业务智能助手大模型首次在钢铁行业客户业务场景落地,验证决策分析等复杂场景的可落地性。1.业务人员专业知识获取便捷性和准确性提升:通过对业务人员在工作中的遇到的问题进行智能分析、总结,并结合企业内部知识数据,快速给出分析后的业务知识问答反馈,异常处置响应效率提升 30%;2.管理侧经营决策辅助能力提升:利用 GBI 以及智能问答提升管理人员对重要信息的快速知晓能力,并提供基于历史数据的决策分析建议;3.业务侧经营决策辅助能力提升:提供基于业务数据的洞察能力,快速掌握现场的生产数据情况,并结合历史情况给出辅助建议,生产数据利用率提升 50%;4.生产线设备运维效率提升:构建钢铁企业设备产线运维的第二大脑,通过全新自然语言交互,大模型与设备故障根因分析小模型融合,实现设备运维端到端的业务闭环,提升对运维人员一线支持能力,设备运维工作效率提升 10%。客户收益智慧工业31 行业首次探索引入视觉大模型提升安全管理效率深圳市燃气集团股份有限公司深圳市燃气集团股份有限公司是一家以“燃气 清洁能源”为双主业的市属国有控股上市公司,创立于 1982 年。公司燃气及清洁能源项目遍布 68 个城市,拥有国家高新技术企业 7 家。公司全资、控股及参股企业138家。2023年在 财富 中国500强排行榜中名列第432位。对于燃气企业来说,燃气安全运营作为“城市生命线”的重要组成部分,燃气场站的安全管理变得尤为关键,必须杜绝各种风险行为,比如抽烟、打电话、未穿戴工服及安全帽、人员入侵等,一旦安全生产管理工作不到位,极易引起突发事故。燃气营业厅作为与用户沟通的重要窗口,如果出现离岗、违规穿戴、人员聚集等不合规行为,将直接影响服务品质与客户满意度,给企业形象带来不良的影响。燃气企业在场站和营业厅监控系统建设都比较完整,但技防缺失是管理中最显著的问题。一、各监控系统隔离不互通,全局掌控难度高,缺少一个统一的平台,缺少级联架构下的互联互通;二、已建视频监控系统老旧,智能化水平低,没有充分地利用视频信息建立具有“自动预警”的智能化信息系统;三、巡查模式落后,以人力巡查模式为主,盲区多、隐患反馈滞后性强、工作情况难约束。客户介绍项目挑战32 视频中台总览,在大屏中显示视频资源的概况、告警情况等关键信息为此,百度为深圳燃气打造了智能视频中台:统一的视频平台,可提供视频采集、视频加工处理、视频服务、视频管理等全流程的能力。统一的AI算法管理平台,具备数据中心、模型服务、应用编排、AI应用市场等能力。统一的AI智能算法模型库,拥有针对场站、营业厅两大业务领域中常见危险行为或不合规行为的识别算法。比如火焰识别、烟雾识别、工作人员穿戴识别等。过去,这些识别任务主要靠人力巡查来完成。如今,AI智能算法模型库里累积了各种识别算法,相当于把一个经验丰富的巡查员的所有知识进行数字化和沉淀。机器可以实时学习和迭代升级,快速拥有和老巡查员一样的能力,同时在一些危险区域代替人力巡查,消减盲区并降低巡查人员工作风险。视频中台是深圳燃气建设的基于非结构化视频数据的AI分析底座,为公司提供点位共建、视频共享、算法共管、算力共融、能力共用、事件共治的视频多资源融合应用。目前视频中台已配置了17种AI算法,接入了68个场站、58个营业厅共计1023路视频数据,实现了视频的实时调阅、实时智能分析、实时安全预警、大屏可视化展示及事件工单闭环管理。视频中台上线月度累计产生事件告警工单985单,视频巡查效率从日均人工发现12个问题,提升为中台自动识别30多个事件并实时告警,有效节省了调度工程师和营业经理在线监管的时间,大幅度提升了经营场所安全管理效率,视频自动巡检效果可助力人工提效15倍以上。解决方案客户收益智慧工业33 数智时代,智能交通发展空间空前广阔。百度智能云坚持“开放能力、共享资源、加速创新、持续共赢”原则,致力于成为智能交通现代化开路先锋贵阳 AI 信控京雄高速智慧交通34 AI 信控交通治理新模式贵阳 AI 信控贵阳市位于贵州省中部,是贵州省的省会城市,地处云贵高原,有着山地、丘陵、洼地为主的地貌特征。近年来,贵阳的发展势头迅猛,地区生产总值增速连续 6 年位居全国省会城市前列,城市快速发展,为城市带来了活力,也带来了交通拥堵的压力。贵阳市委市政府对交通拥堵治理工作高度重视,高位统筹、成立专班,决心以“铁的手腕”打一场交通拥堵治理攻坚战,从 2021 年 10 月起开展“铁腕治堵”举措至今,全市取得了“市民出行满意度提升、交通拥堵指数降低、通勤耗时降低、高峰时间缩短”的“一升三降”阶段性成效。通过“铁腕治堵”的有力推动,贵阳市各级各部门对交通治堵工作齐抓共管、协同发力。其中,贵阳交警就借助“互联网 交通”的大数据监测手段,从强化路面交通管理、优化交通组织设计、加强宣传等多方面入手,取得了一定成效,全市多处路口和路段的拥堵程度缓解,城市拥堵指数同比明显降低。但受制于山地城市的地形限制和道路条件约束,贵阳市距离彻底破解城市交通拥堵,还面临着不小的客户介绍项目挑战35 难题,急需挖掘出更多维度的新措施、新手段,以“盘活城市交通秩序,提升市民出行保障;缓解城市交通拥堵,带动全市经济发展;强化交通管理手段,降低警力投入成本;提升市民满意程度,推进强省政策落实”为目标引导,采取系统性、长期性的交通优化措施。目前,贵阳市的交通拥堵问题在观山湖区表现得比较集中,故本期项目选择了观山湖核心区内的 31 个重要交通节点路口,作为百度AI信控缓堵工作的落地应用。通过外场雷视一体机感知获取实时车流量数据,融合百度地图交通指标数据,全面分析 31个路口的交通通行情况,对路网现状、拥堵事件、交通流量、交通态势、路口/路段/区域等进行综合研判,诊断交通拥堵成因,从源头上分析城市交通问题;根据 31 个重要交通节点路口高峰、平峰、夜间等不同时段的实时交通流变化,基于交通信控大模型智能匹配生成不同时段,不同状态的信号灯配时方案,实现信号配时的自动调优,提升道路通行效率。结合贵阳“一圈两场三改”民生工程,百度智能云应用“态势 信控缓堵”建设项目、打造15分钟生活圈,路口车均延误下降 15%。通过“互联网数据 路侧雷视感知”的融合,实现道路交通参数的精准感知和全面获取,实时掌控路口交通状态;根据感知到的拥堵态势,AI 信控算法动态对路口红绿灯的时长进行优化,合理分配各方向车辆的等灯时间。在信控优化系统中,可同时呈现路面交通运行情况、红绿灯实时运行情况以及优化效果情况;通过数据驱动,系统自行学习反馈,不断提升优化效果。交通运行监测大屏,实现了从宏观到微观的交通运行状态监测:宏观上,对贵阳市在全国范围内的拥堵指数和排名进行监测,从大颗粒度上反映城市交通发展的演变规律;其次,对全市每日的指数、解决方案客户收益智能交通36 智能交通贵阳交通驾驶舱智能信号控制平台速度和拥堵里程进行 5 分钟颗粒度的监测,并同比分析每日异常的时间和区间,便于缓堵决策的快速响应;微观上,针对重点路口、路段和小型片区进行微观监测,对即将拥堵的路口进行及时预警,提前派遣警务人员、执行预案。37 行业首个面向高速公路运营管理的场景大模型即将面世京雄高速京雄高速公路河北段,是雄安新区“四纵三横”区域高速公路网的重要组成部分,北接北京市西南五环路、南接雄安新区,全线长75.498公里,于2021年5月29日通车运营,主线采用双向八车道高速公路标准,设计速度120公里/小时,河北高速公路集团有限公司京雄分公司于2022 年11月17日正式成立,主要负责京雄高速河北段运营管理工作。设收费站6处(雄安北、雄安临时、泗庄、高碑店东、固安西、涿州东)、养护班组2处、监控中心1处。客户介绍38 囿于技术水平限制,现行业务系统存在内容与形式单一、操作与流程固化、数据和信息割裂、展示维度和流程设计相对片面、视频感知能效不足,应急处置效率亟待提升等难题,致使数字化管理与服务缺乏精准度、灵活性,无法与管理人员以及广大司乘产生直接协同。本项目锚定京雄高速公路运营管理实际,在百度通用大模能力基础上,基于高速公路运行数据进行预训练,打造高速行业大模型,形成面向事件检测、应急处置、信息处置、业务交互四类专属模型和七项创新应用,依托行业专业术语的精准识别理解能力和大模型的知识增强能力与内容生成能力,构建集感知、认知、决策等能力于一身的数字业务专家,具备对发生的道路事件、问题全天候检测和智能决策自处理,智能生产所需内容,各类报告自动撰写,应急事件智能处置等功能,实现京雄高速运营管理业务从手动操作到语音交互直达、从被动响应到主动发现的跨越式转变,全面提升京雄高速路网运行监测准确率、应急处置效率和业务系统使用效率。项目挑战解决方案基于这一行业大模型,预计将实现:多维数据挖掘,智能自主决策融合高速业务、数据、时间、空间、资源等多维度高速运行数据,深入挖掘分析高速交通事件处置决策的特征与规律,自主生成不同优先策略的处置预案,同时实现业务决策的全过程分析与沉淀,业务知识的全方位调取与整合,使数据利用更高效、数据分析更精准、决策辅助更智能。个性化需求理解,一路多方自主协同实现多系统智能联动,满足宏观、微观,平时、战时,B端、C端的不同需求,可以给多方协同带客户收益智能交通39 京雄高速来快速、有效、智慧化的提升,给高速管理带来更成熟更智能的协同方案,提升指挥调度效率,提升用户出行满意度。业务流程全覆盖,业务指令高效直达。通过指令集统一定义路网运行监测、应急救援管理、协同服务管理等指令集,通过语音语义指令就可以实现跨系统直达、跨功能直达、跨数据直达和跨API的打通,实现语音交互式数据查询、知识库调用交互、多方信息协同、不同系统联动、报告智能生成、指令下发等,构建交通从感知、认知、决策到预测的完整能力,有效提升业务处置效率。运营管理能效显著提升,缓解工作压力降低劳动成本。数字业务专家全天候不间断贴身服务,实现高速运营管理全流程的自动化和智能化,缓解人员工作压力,降低劳动成本,提高生产效率。初步测算,业务系统效率提升80%以上,事件检测准确率提升至95%以上,应急处置效率和信息发布效率提升80%以上。智能交通40 百度汽车云,以大模型助力汽车行业 智能化升级汽车云蔚来汽车长安汽车吉利集团极越汽车41 蔚来 ET9大模型云端服务创新座舱场景变革交互体验蔚来汽车蔚来是智能电动汽车领域的领军企业之一,致力于通过提供高性能的智能电动汽车与优质用户体验,为用户创造愉悦的生活方式。蔚来对于智能座舱的理解非常具有用户思维,定位“移动的生活空间;有温度的情感陪伴;连接产品、服务和社区”,将服务用户的理念贯彻到底。希望通过大模型提升座舱开放域问答交互体验,为用户提供更丰富的场景服务。当前,新能源汽车智能座舱需求快速增长,智能座舱功能落地的重要性逐渐被更多车企所感知,因此,针对智能座舱的研发和功能落地,已成为目前绝大多数车企重点布局的领域,并且在各自的主流产品中均已标配这一能力。客户介绍项目挑战百度与蔚来汽车合作,借助文心大模型共同打造蔚来座舱 AI 伙伴,首批上线蔚来 NT2.0/2.2 平台所有车型,目前已推送近 20 万台车,提供更高效、愉悦的 AI 用车体验。解决方案42 NOMINOMIGPT 交互视窗:为 NOMIGPT 打造全新交互界面,可更加灵动地展示多种类型的生成内容;百科问答:支持包括科学、历史、文学、艺术、影视等不同领域的百科知识问答;出行攻略:支持景点推介、游玩攻略、行程建议等出行场景问答;学习创作:提升理解、推理与创作能力,能够进行学习、创作、咨询等个人问答;无限趣聊:对话共情与对话能力提升。连续对话下,可与 NOMI不限轮次谈天说地,提供更懂你的专属陪伴;趣味表情:NOMI表情互动体验升级,增加更多趣玩表情互动指令,支持用户描述的表情指令,提供趣味回复和灵活匹配的表情;魔法氛围:NOMI 支持营造任意的氛围,会基于大模型强大的推理能力,在 1670 多万种氛围灯搭配中,找到适合用户表达的氛围搭配;用车问答:NOMI 支持查询车辆信息、用车知识、指示灯等,帮助新老用户更深入地了解和使用车辆。百度文心大模型助力蔚来汽车打造 NOMIGPT,是行业领先的端云多模态大模型,助力座舱场景创新,提升用户体验,形成了良好的示范效应。百度将与蔚来深入开展持续的联合技术研讨,共创场景和合作思路,扩大合作范围,让百度大模型成为蔚来汽车战略合作伙伴,陪伴客户成长。客户收益汽车云43 长安汽车打造高水平智算中心助力汽车行业加速数智化转型长安汽车是中国汽车四大集团阵营企业,拥有162年历史底蕴、40年造车积累,全球有12个制造基地、22个工厂。作为中国汽车品牌的典型代表之一,长安汽车旗下包括长安启源、深蓝、阿维塔、长安引力、长安凯程、长安福特、长安马自达、江铃等品牌。长安汽车始终以“引领汽车文明,造福人类生活”为使命,以科客户介绍长安汽车群车图44 我国汽车产业正加速迈向智能化。从AI自动驾驶到生成式AI应用,各类与汽车相关的数据正大幅增长。智算中心作为汽车智能大脑,可帮助车企更快开发智能驾驶、智能网联等产品和服务,并为用户提供智能、优质的驾乘体验。项目挑战长安汽车始终秉承“引领汽车文明,造福人类生活”企业使命,持续推进“第三次创业创新创业计划”,深入实施新能源“香格里拉”、智能化“北斗天枢”、全球化“海纳百川”计划,打造长安启源、深蓝汽车、阿维塔三大智能电动品牌。长安汽车坚定推进“新汽车新生态”战略,立志到2030年,累计投入 2000亿元,新增1万余人的科技创新团队,实现集团销售汽车500万辆,其中,长安品牌400万辆,成为“数智新汽车”的引领者。为此,长安汽车持续加强“云智一体”的新型AI基础设施建设。目前,长安汽车与百度智能云合作建设长安汽车智算中心,支持长安汽车大模型、智能网联与自动驾驶研发相关业务。解决方案技创新为驱动,重塑能力、升级产业,以更快的速度、更大的强度,坚定坚决向智能低碳出行科技公司转型,向社会作出源源不断的贡献,不断满足人民群众对美好生活的需求,奋力推进“第三次创业创新创业计划”,为打造世界一流汽车品牌努力奋斗。长安汽车和百度共建的长安汽车智算中心基于百度智能云的百舸AI异构计算平台。长安汽车智算中心计算能力可达142亿亿次/秒,已支持长安汽车开展大模型、智能网联与自动驾驶研发相关业务。以百度智能云的百度百舸AI异构计算平台为底座,长安汽车打造了客户收益汽车云45 汽车云百度智能云助力长安汽车打造智算中心支持从数据采集、处理、标注、训练、评测到模型部署全流程的“星环平台”,可对跨集群智能算力、存储资源实现统一调度和管理。系统上线以来,GPU(图形处理器)资源利用率提升40%以上,大大加速了项目研发进度。截至目前,长安汽车基于该平台已累积近亿帧的高质量标注数据,累计完成超3万次的智能AI算法模型训练。长安汽车与百度智能云在大模型方面展开深度合作,在车型中搭载百度文心一言大模型,提升智能对话和服务能力水平,为用户带来更智能的出行体验。在企业知识管理方面,探索应用文心大模型,实现多种创新场景应用。此外,百度智能云还基于智算中心为长安汽车提供大模型训练算力优化服务,为长安汽车自研行业大模型提供帮助。作为新型AI基础设施,长安汽车智算中心还支持智能网联汽车数据存储分析、AI 智慧助手及新能源监管报送等业务系统研发,为新车型研发提供高效的技术支持和数据支撑,为用户带来舒适、便捷的驾乘体验。长安汽车与百度智能云依托智算中心,在AI平台、AI应用、AI数据服务及AI 人才培养等领域进一步展开合作,助力长安汽车全力向智能低碳出行科技公司转型,向世界一流汽车品牌迈进。46“1 6 N”混合云平台生产全过程整体上云吉利集团浙江吉利控股集团始建于1986年,1997年进入汽车行业,一直专注实业、专注技术创新和人才培养,坚定不移地推动企业转型升级和可持续发展。现资产总值超5100亿元,员工总数超过14万人,连续十二年进入财富世界500强(2023 年排名225位),是全球汽车品牌组合价值排名前十中唯一的中国汽车集团。吉利控股集团业务涵盖汽车及上下游产业链、智能出行服务、绿色运力、数字科技等。2020年,吉利全面开启架构造车和新能源化,并计划在2045年实现碳中和。这一战略的提出,是吉利加速智能化的重要里程碑。客户介绍47 近年来,随着大数据、云计算、物联网、人工智能等新技术的快速发展与大量应用,汽车产业迎来巨大变化。为加速推进吉利智能化建设,百度智能云助力吉利云上生长与智变进化,共同打造“1 6 N”吉利混合云平台,成功拥有集团层面统一采用的专有云基础设施,实现夯实云基础架构业务云化、原有业务上云&数据入湖业务智能化、搭建人工智能平台,最大限度发挥数据在业务运作中的作用,赋能业务创新,形成不断创新与决策能力,支持各领域创新变革。项目挑战“1 6 N”吉利混合云平台:1 朵混合云:公有云 百度私有云。6大能力:云设施能力、云架构能力、安全运营能力、开发运维能力、业务中台能力、数据服务能力。N 项支持集团全球业务:满足对外快速响应服务用户及对内数据安全保护的需求。座舱大模型,不仅能够更准确地理解驾驶员、乘客的意图,完成对座舱各项功能的操控,也可以与驾驶员、乘客聊天,在各种场景中主动发起对话,配合车上的功能,给用户更智能的座舱体验。吉利银河 L6 已经集成基于大模型的智能对话能力,更多的大模型场景也会逐步推向客户。解决方案早在2019年,吉利就联合百度智能云共同打造“1 6 N”吉利混合云平台,构建了工厂数字化大脑,将整个生产制造环节展示在云上。该平台帮助吉利降低了 30%的管理运维成本,提高了20%的资源利用效率。全球2万多名研发设计人员可以在不同时空、不同地域协同工作。客户收益汽车云48 百度智能云为吉利打造元宇宙展厅1000家以上的零部件供应商实现生产制造协作。2022年,百度与吉利控股集团签署了深化战略合作协议,依托人工智能 工业互联网向智能制造核心环节全面推进,共同探索打造现代汽车智能制造,谋求实现从未来工厂1.0到2.0再到3.0“工厂元宇宙”的逐级跃升。吉利控股集团通过建设专有云平台,能提供基础云、机器学习、人工智能、大数据和AI开发及运用的能力和工具,深入挖掘数据的价值,更好地服务于车联网、智能驾驶、营销、研发等业务;实现资源的弹性发放,提高资源利用率,并通过统一架构、集中管控、减少重复建设,做到了降本增效。百度专有云平台已为吉利控股集团、汽车集团、商用车集团、科技集团、路特斯科技、极氪科技等单位22个业务部门提供各类基础设施资源,基础的IaaS服务(计算、存储与网络)开始对外提供自助式的云服务,结合必要的配额和流程管控能力,在保障平台安全运行的前提下,大幅提升了最终用户使用云服务基础设施的效率。在吉利的实践背后,一条清晰的车企数字化路径浮现:打造信息技术底座,以此为基础推动核心业务场景进行数字化转型与智能化升级,最终实现数智化的商业模式与管理模式。汽车云49 AI 大模型赋能,打造极致高阶智驾体验共同打造大模型智能座舱和纯视觉智驾解决方案极越汽车作为吉利控股集团与百度联手打造的高端智能汽车机器人品牌,极越汽车在上市之后,凭借优质的智驾、智舱能力,成为全球首个大模型“上车”的智能汽车,赢得了广泛好评。为支持极越 01 在智驾、智舱等层面的不断迭代,百度为极越提供了包括计算、存储、大模型等在内的全栈智能云产品服务。百度将联合极越,共同打造大模型时代智能座舱解决方案和纯视觉智驾解决方案。目前极越 01 是全球首个文心大模型上车的量产车型,通过百度智能云提供服务的文心大模型,为用户带来了前所未有的大模型人工智能车机交互体验。1.AI 问答闲聊:更人性化的知识百科 趣味问答,跨域无缝融合;客户介绍项目挑战解决方案50 汽车云AI 智能纯电 SUV 极越 01AI 智能纯电轿车极越 072.用车顾问:售后全生命周期陪伴,为司机用户解答用车问题;3.灵感绘画:对话交互文生图,用于车辆主题/壁纸/儿童娱乐等;4.出行规划:制定个性化自驾游攻略,规划到预订全链路闭环体验。为确保极越的国内首个纯视觉高阶智驾方案“开箱即用”,极越在高阶智驾能力的研发过程中,引入了百度智驾方案,覆盖了智驾训练集群、数据闭环管理等场景,极大地提升了研发和验证效率,实现量产交付。智能语音离线端到端响应速度小于 700 毫秒;离线处理高拒识率全时免唤醒对话超过 95%;多音区并行“唤醒 交互 执行”,车内车外语音全场景覆盖。客户收益51 服务近 600 家金融行业客户,覆盖营销、风控、运营等关键场景,稳居中国金融云解决方案领域第一阵营。中国邮政储蓄银行鹏华基金管理有限公司某证券股份有限公司智慧金融52 助力构建“邮储大脑”,打造全行统一机器学习平台中国邮政储蓄银行作为国内领先的大型零售银行,中国邮政储蓄银行(以下简称:“邮储银行”)拥有近4万个营业网点,服务个人客户超6.5 亿户,定位于服务“三农”、城乡居民和中小企业,依托“自营 代理”的独特模式和资源禀赋,致力于为中国经济转型中最具活力的客户群体提供服务,加速向数据驱动、渠道协同、批零联动、运营高效的新零售银行转型。邮储银行拥有近4万个网点、6.5亿用户和18亿账户,“毛细血管”非常发达,希望用战略入脑进行全局化数字化转型,建设支持全行业务客户介绍项目挑战53 通过引入百度智能云AI中台解决方案,邮储银行构建了国内大型商业银行中首个落地的全行范围统一机器学习平台“邮储大脑”,并持续进行平台升级、拓展场景建设,借助生成式大模型能力,孵化出测试用例分类、货币交易机器人、金融领域对话生成、金融领域辅助文档分析、金融领域投诉分析等AI原生应用。在项目实施上,统一平台多期迭代,逐渐向功能完善、支撑不同业务场景独立应用、打通流程智能化、赋能业务数字化、延展智能业务生态的“金融全脑”平台演化。智能风控:零售信贷自动化审批判断处理从5分钟压缩至10秒以内,实现了以天为周期的模型迭代;支持信用卡、个贷等零售业务约14亿账户的风险分池建模,模型迭代时间从43天缩短到10小时;为成本报账、新一代人力资源系统、法律事务系统等提供预测服务,为全年400万笔报账交易的影像识别提供支撑,减轻财务审核压力。数据智能:对接全行6大数据集市,统一实现数据获取、分析和智能数据统一建模;30 省级分行接入营销获客和产品推荐应用;支持金融市场部实现基于市场数据和交易数据建模分析,降低交易成本、防范交易风险。模型开发:提供强大的数据分析引擎、建模引擎,解决了大规模数据的工程难点;对信用卡亿级别样本的数据清洗和分析时间从月级别、周级别压缩至小时级别,提升数据处理工作效率;AI平台集群支撑18个核心业务系统、3大主管部门、14个支撑业务部门、30余家分行,成为行内智能化战略规划推进的中枢。解决方案客户收益系统智能应用的AIPaaS“人工智能大脑”,对各类模型应用整体统筹、规划,提升各金融场景的模型开发及训练能力,推动智算一体架构快速落地,打造先进的数字生态银行。智慧金融54 大模型加持基金业务,通过金融大模型应用组件集,加速场景应用落地鹏华基金管理有限公司鹏华基金管理有限公司成立于 1998 年,业务范围包括基金募集、基金销售、资产管理及中国证监会许可的其他业务。截至 3 月末,公司资产管理总规模达到 11,248 亿元,管理着 314 只公募基金、13 只全国社保投资组合、8 只基本养老保险投资组合。公司累计服务客户过亿,致力于打造业界一流的综合资产管理平台,金融科技在服务公司各业务领域数字化建设中起着至关重要的作用。在传统业务模式下,采用小模型对财经新闻事件进行分类,泛化效果有限;整理上市公司公告关键要素和总结摘要、公司会议摘要、判断基金风格偏移、进行机构客户分类等,主要依靠人工解决;对于海量的投研研报、内部流程制度和各类内部知识,信息查询获取的效率低,需要基于大模型技术加强鹏华基金 AI 中台服务能力,提升在投研、风控、运营、办公等场景的业务效率。客户介绍项目挑战基于文本的分析分类、摘要生成与文档知识库检索等成熟的大模型能力,百度智能云与鹏华基金共建八大业务场景,包括财经事件分类及正负面判断、基金持仓风格偏移判断、企业公告摘要生成、会议纪要摘要生成、内部员工制度智能问答、单文档核心要素抽取、产品知识库检索、解决方案55 投研方面,基于大模型摘要能力将资讯舆情速览、A 股公告摘要、研报速览等功能整合至鹏华文心大模型平台,以业务关注的角度智能总结呈现二级市场上最新的事件分析、研报主要观点和上市公司公告关键要素信息,大幅提升基金经理的资讯获取效率,节省了30%以上的时间。运营办公方面,基于文档知识库检索能力构建内部发文、制度和各部门服务的问答助手,7*24 小时为业务部门提供高精度的业务问答,每个回答附有引用链接,具备可解释性和可追溯性,问题解答率超过90%,相比传统人工搜索,节省了约 40%的时间。同时,鹏华基金知识库系统与大模型平台进行互联互通,根据实际场景实时更新大模型内部数据,保障数据内容的准确。客户收益研报智能问答。通过百度智能云 AI 原生应用开发调试工作台-基座智汇智能体(金融 APaaS 平台),鹏华基金实现了提示词模板的可视化管理与调试,搭建了包含 20 个技能的智能应用市场,目前公司内部员工使用率峰值超过 60%。鹏华大模型服务平台-内部办公场景鹏华 AI 万事通-员工助手(查制度、查流程、查业务产品)智慧金融56 大模型率先落地场外衍生品交易场景某证券股份有限公司作为国内证券行业领先的综合金融服务提供商,该证券股份有限公司(简称“该证券公司”)设有数百家证券营业部,具有行业内覆盖广泛的营业网络和规模领先的客户群,拥有多种智能交易功能和丰富的产品线。一方面,场外衍生品业务采用人工操作,交易员每天需要处理大量交易询价沟通工作,客户询价格式不一,人工对非结构化数据的判断、分析难以沉淀录入并快速响应客户达成交易,尤其是在机构业务量激增的情况下,人工处理很容易出现遗漏,难以应对新格式及新业务等情况,容易造成客户流失;另一方面,场外衍生品交易具有标准化程度低、1名交易员对多个客户、交易询价时间集中在开盘阶段及询价交易要素众多的特征,导致业务运营成本很高,无法快速撮合成交。针对上述问题,该证券公司和百度智能云通力合作,基于开元解决方案先进的金融行业应用大模型底座构建了“百度智能云金融智能场外交易发现平台”。该平台能够通过将交易询报价业务全流程自动化,客户介绍项目挑战解决方案57 该项目上线后,降本增效成果斐然,该证券公司交易规模相较过去增长100%,撮合成功率增长3倍,客户数量和合约数量爆发式增长。内置非标准化数据解析模型助力快速展业:智能场外交易发现平台大模型泛化能力优异,通过少量的样本训练就可以达到不错的模型效果,目前已支持香草、雪球等期权交易的自动询报价服务。模型统一管控快速响应新业务:智能场外交易发现平台支持解析模型自助优化,可进行自主标注、训练、调优及模型效果监控,使模型可以快速响应新业务、新资产标的。交易规则问答服务提升信息获取效率:智能场外交易发现平台能够解析交易规则询问意图,基于用户管理的内部知识文档,提供智能交易业务问答服务,帮助券商机构打通交易规则问答从知识沉淀到应用的闭环。百度智能云金融智能场外交易发现平台取代查询、手工回复、信息确认等人工操作,形成从产品理解、需求理解和对话式交易模式到新增交易转化的闭环,帮助该证券公司实现场外衍生品业务运营智能化,有效提升对客服务效率,同时显著优化机构客户的满意度。客户收益智慧金融58 大模型时代,百度智能云持续助力泛互联网客户多场景全方位智能化升级,用科技引领业务创新泛科技金山办公好未来59 基于大模型打造协同办公赛道首个 AI 办公应用金山办公作为一家科技公司,秉持“让智慧绽放”的品牌理念,金山办公在过去三十余年坚持技术立业,持续深耕办公赛道,不断打磨技术和产品服务,始终秉承用户第一,致力于把最简单高效的办公体验带给众多个人、家庭和组织,帮助个人用户更轻松快乐地创作和生活,帮助组织客户更高效安全地运行与发展。未来,在“简单创作,轻松表达,实现价值的连接”企业使命引领下,金山办公将进一步围绕“多屏、内容、云、AI和协作”推进业务转型,全心全意为全球用户提供超出预期、不可思议的办公体验。客户介绍珠海金山软件园60 作为国人办公最常用的工具之一,WPSAI 作为中国协同办公赛道首个落地的 AI 办公应用,已接入 WPSOffice、WPS365 等全产品线,解决用户在内容生成、内容理解、指令操作等方面的日常办公难题。金山办公积极拥抱 AI 时代,在大模型的风口上,金山办公第一时间通过百度智能云千帆大模型平台接入了文心一言,快速推出了“WPSAI”,这是中国协同办公赛道首个智能办公应用。文心一言的中文优势,让 WPSAI 更符合国人的办公习惯;百度智能云千帆大模型平台丰富的安全机制为金山办公构建了四道安全防线,全面提升了大模型的内容安全,让国人也能够轻松地享受到智能办公的便捷。第一步是 AI 技术中台接入,包括大模型 API 的接入,以及功能参数、错误码,质量监控等;第二步是 Prompt 提示词工程,包括如何写和优化 Prompt,比如人设设置、指令范围、CoT 等;第三步是精标数据驱动,包含文字、演示、表格的 badcase 和大模型训练的精标、SFT数据。这三步构成了一个大的循环迭代优化闭环,称为外环;其中,第二步的 Prompt 提示词工程与第三步的精标数据驱动,这两个步骤又构成了一个小的循环迭代优化闭环,称为内环。通过内环和外环驱动,以及与业务的不断沟通,结合业务场景,来实现大模型能力的共建、共创和落地、交付。WPSAI 以金山办公各式各样丰富的办公软件为基础,接入百度智能云千帆大模型平台后,为用户提供了多项强大功能,包括起草、改写、总结、润色、翻译、续写等,覆盖了用户在各种场景下的文字需求,可以生成工作总结、广告文案、社交媒体推文、文章大纲、招聘文案、项目挑战解决方案客户收益泛科技61 泛科技金山办公总部待办事项、创意故事、旅行游记等。除文案工作以外,WPSAI可以满足不同格式的文件输出需求,包括文档、演示、表格等。WPSAI 可协助从PPT大纲生成、PPT制作、模板选择、内容修改的全过程,使PPT制作变得更加高效。WPSAI能根据提供的主题和页数,自动生成PPT大纲,实现一键生成整份PPT,无需费时费力。同时具备扩写和改写的能力,支持生成单页 PPT。此外,它提供可一键切换的精美模板,实现配色和字体的即时更换,显著提高排版效率。同时,可以自动生成演讲备注,提高演讲质量。WPSAI 与用户对话时,可以迅速获取图文资料,为文档和PPT的内容提供更多素材,提升创作的质量和多样性。随着人工智能技术的不断发展和普及,越来越多的企业开始关注AI技术在不同领域的应用。协同办公产品是当前企业数字化转型升级的重要突破口。在AIGC热潮的推动下,协同办公需求层出不穷,数字办公市场规模持续扩大。金山办公以深厚的技术底蕴面向企业用户推出全新一站式数字办公平台,不仅提升了自身的竞争力,也为广大用户带来了更高效、更智能的办公解决方案。62 快速推进大模型应用落地,加速“教育数智化”战略转型好未来好未来北京总部好未来教育集团(以下简称“好未来”)是一家以内容能力与科技能力为基础,以科教、科创、科普为战略方向,助力人的终身成长,并持续探索创新的科技公司。好未来使命是“爱与科技助力终身成长”,希望通过科技不断创新,探索与促进教育模式的新业态发展。好未来秉承智慧教育和开放平台的理念,以学而思素养、学而思网校为代表推出的丰富的素质类教育服务,助力行业的“数智化”转型;以学而思智能硬件、美校为代表推出创新、多元化的教育产品模态,共享教育资源,达成科技创新;以泛平台知识传播为载体,促进与实现知识传播。近两年,人工智能技术深度融入教育领域,服务教育工具升级和创新,助力教育行业高质量发展。百度智能云联合大模型落地教育场景先行者好未来,运用功能丰富、性能卓越的百度百舸AI 异构计算平台,为好未来自研“九章大模型(MathGPT)”提供关键支撑,推动大模型深入教育场景,助力教育行业智能化转型。企业自研大模型不仅需要强大的算法、技术团队平台,还需要与之匹配的 AI 基础设施,包括高性能计算平台、存储系统、网络、调度框架、数据集等。此外,还需要具备成熟的工程化平台能力,能够快客户介绍合作背景63 速启动整个研发项目、验证基座模型,以便基于底座模型结合应用场景、教研数据、业务反馈快速推动后续迭代,把流程转起来。同时,在大模型训练、推理阶段,企业还需具备处理大规模任务的能力,以现有的基础设施持续提升资源利用率、任务效率,在最短时间内实现自研大模型上线和启用。对此,好未来与国内 AI 行业深耕大模型产业方向的第一批实践者百度智能云合作,运用百度百舸AI 异构计算平台,打造高性能的专业 AI 基础设施,为自研九章大模型(MathGPT)提供 AI 支持,成功解决了大模型应用早期遇到的把流程转起来的问题。百度智能云千帆大模型平台是面向企业开发者的一站式大模型开发及服务运行平台。好未来在使用过程中重点关注千帆提供全栈全流程能力、高效的SFT微调能力、灵活支持更多的插件能力、业务安全性等。百度智能云为好未来自研大模型训练场景,提供了百度百舸AI异构计算平台服务的解决方案。百度百舸AI 异构计算平台是面向大规模深度学习的高性能云原生AI计算平台,为模型算法专家和运维专家提供全面的集群运维支持和任务全生命周期管理,同时具备训练/推理加速、故障容错、智能故障诊断等高级功能,有效训练时长可达98%以上,大幅提升算力使用效率,助力企业在大模型时代的业务转型。解决方案泛科技九章大模型(MathGPT)在学而思学习机落地的 AI 功能基于百度二十余年安全的总结与提炼,围绕百度“文心大模型”安全实践经验,推出以AI安全为核心的大模型安全解决方案,从大模64 结合百度文心大模型和好未来自身业务数据进行SFT微调,以实现更贴合业务需求和体验标准,并通过原生融合的方式将大模型植入好未来智能硬件的智慧教育环节,助力业务体验获得明显提升。在大模型训练、推理环节,好未来利用百度百舸AI异构计算平台,在项目初期实现了项目的快速启动与任务开展,为项目的目标达成争取到了宝贵的时间。在项目中期,利用百度智能云在百度百舸AI 异构计算平台上的运行实践,结合自身的业务要求、实验特点快速完成了九章大模型(MathGPT)底座大模型的快速验证、迭代与升级,为自研九章大模型(MathGPT)的选型创造了必要条件和技术支撑。此外,对于好未来非常关注的ROI、价效比,百度智能云的实践也是在不断实现版本迭代,性能不断升级,好未来在资源投入上获得了较高的收益。基于百度百舸AI 异构计算平台炼成的九章大模型(MathGPT)在成功内测推出后,已经成功在智能硬件学习机Xpad实现了业务上线。基于九章大模型(MathGpt)的“数学随时问”,可以实现对 80%的数学题即问即答,暂时不能回答的最快可在一小时内上传真人讲解视频、20分钟内生成AI视频解析。除此之外,还升级了基于大模型的指尖翻译、百科问答、口算练习等AI 工具。基于学而思九章大模型(MathGPT)的AI辅导神器xPad2Pro系列还上线了学而思自研的新功能“AI对话学”。“AI对话学”基于九章大模型(MathGPT)的解题和讲题能力,通过与学生进行启发式的对话交流,“打开题目的黑盒”,快速分析出学生的薄弱点。新一代智能硬件的市场热度高涨,大模型创新教育业务的故事还在延续。客户收益泛科技型全生命周期视角出发,方案涵盖大模型训练/精调/推理、大模型部署、大模型业务运营等关键阶段所面临的安全风险与业务挑战,提供全套安全产品与服务,助力企业构建平稳健康、可信可靠的大模型服务。65 致力于培养产业转型所需的高素质人才,并主导制定生成式人工智能领域相关岗位培训标准上海交通大学华北电力大学智慧教育66 国内首个基于生成式 AI 大模型重构科学研究的新范式应用上海交通大学上海交通大学上海交通大学(简称“上海交大”)是教育部直属的全国重点大学,办学历史悠久,是中国顶尖高校之一。该校是“双一流”大学,并属于多个大学联盟。学校还参与了多个教育培养计划和国家高水平大学建设项目,是政府奖学金留学生接收院校和学位授权自主审核单位。上海交大是一所综合性大学,校内许多学科的老师都已经在使用人工智能。然而,这些老师对于人工智能的最新技术掌握程度可能不客户介绍项目挑战67 以百度自主研发的国产大模型文心大模型为基石,搭载大模型、人工智能中台、数据中台、隐私计算平台、百舸AI异构计算平台等以百度智能云核心能力为依托的“全家桶”解决方案,构建了上海交通大学AIforScience科学数据开源开放平台,在国内率先实现生成式人工智能与科研场景的结合。在算力层,通过百度智能云百舸端到端优化的异构算力底座能力,为上海交通大学科研人员提供训练、推理网络的算力优化配置,实现训练和推理加速,提高研究效率。结合数据中台与人工智能中台“全家桶”能力,实现对于科研数据、模型的开发和纳管等综合管理。同时,搭载隐私计算平台,实现科学数据可信共享,为多学科数据的联邦建模,联合计算提供便利。解决方案够熟练。另一方面,虽然上海交通大学人工智能研究院的老师能够深入研究某些算法,但这些研究与实际应用结合得并不紧密。上海交通大学计划构建AIforScience平台,能够转变传统的科研模式,实现科学与人工智能更紧密结合,从而有效提高科研效率。1.提高科研效率,解放生产力:在传统研究过程中,科研人员想得到结论和数据,在实验室中需要人工进行重复性验证,甚至要花费几年的时间,验证成千上万次。而现在,以在化学合成领域为例,在AIforScience科学数据开源开放平台输入分子SMILES序列,基本5秒之内就可以检索出反应过程、反应条件和相关文献链接等信息。另外还有正向反应预测生成、知识问答、分子合成模型评测等模块,这些功能实实在在地帮助科研人员节省研究时间、提高实验效率;2.创新科学研究范式:司法大模型等科学大模型应用落地,平台形成了基于生成式人工智能重构科研的方法论,开创了人工智能与科客户收益智慧教育68 科学智能驱动研究新范式研场景相结合的创新示范。平台为科学研究的全面自动化搭建了坚实的基础。推动国内生成式人工智能技术与科学研究相结合、交叉演进的业态发展达到国际领先水平;3.推动上海交大形成了AI4S首创性的成果产出:a.建成了国内高校 AI4S 科研平台,在中国高校树立了一面旗帜;b.发布白玉兰科学大模型1.0。高效支撑了白玉兰科学大模型化学合成(BAI-Chem2.0)大模型的开发;c.升级白玉兰科学大模型2.0,百度智能云、上海交通大学人工智能研究院及智慧法院研究院合作研发,共研白玉兰科学大模型法律(BAI-Law-13B)大模型;d.依托AI4S平台,在NatureComputationalScience封面发表AI 城市科学要成果。智慧教育69 华北电力大学华北电力大学 AI 助理华北电力大学华北电力大学是国家教育部直属全国重点大学,创建于1958年,以电气工程及其自动化等领域为特色。学校拥有优秀的师资力量和科研实力,在电力领域取得显著成果。作为上海合作组织大学能源学牵头院校和全球能源互联网大学联盟成员,华北电力大学积极参与国际合作,具有深厚的学术积淀和广泛的国际影响力。项目的核心目标是构建一个校内通用助手,这个助手将成为全校师生得力小助手,需要在日常的问答交互场景中迅速响应他们的需求。通过高效的多轮人机对话机制,百度将为用户提供个性化的建议和信息,帮助他们更好地应对学习、生活中的各种挑战。除了基本的问答功能,还期望校内通用助手能够在准确辨识用户意图的基础上,通过校内业务系统应用助手的功能,自动推送相关的应用入口。这将极大地简化操作流程,提高用户获取所需服务的效率。在此背景下,百度公司凭借其强大的技术实力,创新性地提出了“文心 4.0 超级助理解决方案”。这一方案融合了超级助理和 ERNIE4.0 两款前沿产品,客户介绍项目挑战解决方案70 华北电力大学 AI 助理旨在为用户提供更加智能、便捷的服务。我们相信,文心大模型的强大能力以及百度公司的技术支持,将使这一解决方案在校内通用助手项目中发挥关键作用,为用户带来前所未有的使用体验。2024年,华北电力大学借助百度智能云千帆AppBuilder,精心打造了华电AI助理:i华电,旨在为全校师生提供全方位的智能化服务。这款AI助理不仅能帮助用户查询系统操作指南等实用信息,还涵盖了诸如查制度、查课程、充饭卡、借书籍等校园生活中的高频需求。目前,该服务已进入测试阶段,并收获了广泛好评。华电AI助理的技术亮点在于其强大的模型支持:它采用了千亿级别的文心大模型进行深度服务,同时结合百亿级别的小模型进行精准的意图识别。为了保障数据安全并优化运营成本,超级助理的核心应用服务被部署在本地私有化的机房中,所有数据都受到严格保护,并存储在私有化的环境里,从而巧妙地解决了大模型私有化的成本问题。华电AI助理的功能主要分为两大部分:一是作为校内通用助理,它能够应对全校师生在日常问答场景中的各种需求,通过流畅的多轮人机对话,为用户提供贴心的建议;二是作为校内业务系统应用助理,它能够精准识别用户的意图,并自动弹出相关的应用入口,极大地提升了用户操作的便捷性。华电 AI 助理的核心关注点在于如何将这些先进的大模型技术与现有的校园业务应用相融合,从而进一步提升用户的使用体验。华北电力大学与百度智能云的这一合作,不仅展示了双方在技术创新方面的实力,也为未来智慧校园的建设提供了新的思路和方向。客户收益智慧教育71 附录:百度智能云产品全景云基础人工智能智能视频72 安全企业服务智能大数据行业应用地图服务73 开发与运维行业解决方案通用解决方案

    浏览量136人已浏览 发布时间2024-07-09 73页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • InfoQ:大模型领航者AIGC 实践案例集锦(第一期)(230页).pdf

    2024 年,AIGC 经历着爆发式增长的热潮。不仅各类国产大模型如雨后春笋般相继崛起,相关的商业化应用也步入了绽放期。从内容创作、数字电商、企业生产场景到医疗、教育领域,各行各业都在探索如何利用AIGC提高效率和创造价值,并被注入了前所未有的创造力与想象力。随着技术的蓬勃发展,围绕 AIGC 的应用生态逐渐形成。在此期间,大模型领域内“百家争鸣”的激烈竞争,加速了行业价格战的兴起,更在无形中极大推动了 AIGC 技术普及至大众的进程。AIGC 的各类应用开始广泛从理想迈向现实,惠及越来越多的用户群体。面对这样的发展趋势,极客邦科技旗下 InfoQ 极客传媒自 2024 年初,启动大模型领航者访谈栏目,并策划实施了一系列围绕 AIGC 和大模型的选题报道、专访、直播、演讲分享等多种形式的内容,聚焦于实际案例应用、大模型的实际部署、团队背后的故事等核心话题,与众多行业专业人士进行了深入的对话与探讨。旨在深入了解当前 AIGC 前沿技术在企业应用领域的最新动态,为各行业提供实战经验与趋势洞察。大模型领航者电子书正是基于前述内容,进一步做了筛选、提炼和分类。此次推出的第一期电子书收录了 InfoQ AIGC 频道在 2024 年上半年发布的超 20 篇文章,包括 QCon 全球软件开发大会(北京站)2024 和 AICon 全球人工智能开发与应用大会(北京站)2024 的热门演讲,以及对钉钉、面壁智能、数势科技、腾讯、京东、字节跳动、图灵机器人、云知声、零一万物、达观数据等企业的独家采访。本册共包括“大咖视野”、“观点碰撞”、“应用案例”、“技术实践”与“AI 测评室”五个部分。其中,“应用案例”又涵盖互联网产品、企业生产提效、医疗、教育以及更多垂直行业的章节内容,分别从不同行业的视角展现了大模型应用的无限潜力;“AI 测评室”则囊括了今年各热门大模型的实测。卷首语 PREFACE极客邦科技创始人兼 CEO2024 年 7 月受限于电子书篇幅,我们无法尽数呈现 InfoQ 在 AIGC 频道的全部精彩内容。但与此同时,InfoQ 开设的AI 前线微信公众号正保持着每日的优质内容更新,不间断地向 AI 爱好者、开发者和科学家,持续奉上大模型最新资讯、AI 技术分享干货、一线业界实践案例,希望助力大家全面拥抱AIGC。欢迎关注!在这场前所未有的时代变革中,极客邦科技期盼与大家并肩前行,一同深入探索 AIGC 时代的每一步发展,合力推动生成式 AI 领域人才的全面成长,以及规模化落地的宏伟愿景。【欢迎扫码关注 AI 前线】CONTENTS目录大咖视野|VISION观点碰撞|OPINION01 钉钉卡位战:SaaS 挣不到的钱,Agent 会挣到02 26 岁带着百人团队冲刺大模型,面壁智能天才 CTO:高效比 参数更重要03 这个离开大厂去 AI 创业的互联网大佬,带着他的“Killer Agent”来了04 大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的 不是技术?05 “国外一开源,国内就创新”!面对中美大模型差异,我们该突 破还是继续模仿?713202937应用案例|CASES 第一章:互联网产品第二章:企业生产提效第三章:垂直行业06 如何 1 秒内快速总结 100 多页文档?QQ 浏览器首次揭秘大 模型实现技术细节07 京东商家智能助手:Multi-Agents 在电商垂域的探索与 创新08 字节跳动代码生成 Copilot 产品的应用和演进09 大语言模型加持,是智能运维架构的未来吗?10 用 AI 面试员工的企业,知道打工人在想什么吗?!11 AI 代码助手革新编程界:腾讯云专家汪晟杰深度剖析机遇与 挑战12 巨头们涌入的医疗大模型,何时迎来最好的商业时代?13 AI 老师的强大功能 真人老师的情感交流=未来教育?14 4 人团队,如何用大模型创造近千万业务价值?4761718093100107112127技术实践|TECHNOLOGY第一章:大模型训练与推理第二章:RAG 与智能体落地15 万字干货!手把手教你如何训练超大规模集群下的大语言模型16 当大模型推理遇到算力瓶颈,如何进行工程优化?17 AI 辅助内部研发效率提升,昇腾大模型推理的最佳实践18 智能体技术发展趋势:谈大模型智能体与开放领域融合19 Agent 还没出圈,落地先有了“阻力”:进入平台期,智力 能否独立担事?20 “驯服”不受控的大模型,要搞定哪些事?170175188AI 测评室|EVALUATION01 算数不行、还不懂中国文化,大模型现在抢不了设计师的饭碗!02 首届大模型“相亲大会”开始啦!谁是你的天选 CP?03 Kimi 的词 Suno 的曲:能带我入选中国新说唱,但还 是干不过原神!195206223137160163-6-大模型领航者AIGC 实践案例集锦大咖视野VISION-7-对话先行者洞见新未来钉钉卡位战:SaaS 挣不到的钱,Agent 会挣到出 品|InfoQ 大模型领航者 主 持|霍太稳,极客邦科技创始人兼 CEO嘉 宾|叶军(不穷),钉钉总裁作 者|褚杏娟,InfoQ 编辑编 辑|蔡芳芳,InfoQ 主编“2020 年,刚带队做出全国第一张健康码的不穷加入了钉钉。不穷是阿里的第一位校招计算机博士,从 PC 时代开始触网,完整经历了移动互联网时代。而他如今面临的,是一场关于大模型的竞备赛。想必已经无需用过多笔墨赘述。2022 年底至今,ChatGPT 的出圈程度还没有谁能超越,其背后的技术方向也早已经被竞相追捧。就像不穷说的“大家都充满了 FOMO 情绪。”那么身处其中的钉钉,能够在这次浪潮中扮演什么样的角色?-8-大模型领航者AIGC 实践案例集锦“我们依赖这些大模型公司”今年 1 月,OpenAI 正式推出了 GPT Store。几乎同时,钉钉发布了 AI 助理,并宣布 4 月推出 AI 助理市场。“GPT Store 上线的第一天我就用了,当天就已经有非常多的产品了,速度非常快。但我分析了所有数据后发现,GPTs 同质化非常严重,而且都是一些通过简单限定词、指令或角色扮演来形成的 AI 助手。”不穷说道。这一体验让不穷认定,钉钉未来的 AI 助理市场不做全量推荐,只会推荐精选过的 AI 助理。不穷强调,钉钉模式与 GPT Store 的不同:GPT Store 通过不断丰富插件使 AI Agent 能够批量调用外部系统的能力,但它的组合效率要比钉钉低,因为钉钉拥有天然的 To B 环境,其中有大量的工作任务需要解决。不穷认为,目前钉钉的能力不在于做自己的大模型,而是在应用和数据,在工程性、用户体验以及 To B 理解方面。对于 Agent 来说,大模型只是其中的一个能力,此外还需要非常好的场景和高质量的业务环境数据,这两者恰恰是钉钉有、而 OpenAI 目前还欠缺的。和很多企业一样,钉钉最初也没有一下就找到合适的入局方式。一年多前,看到自己与微软不约而同地都选择了给当前产品增加 AI 能力时,钉钉团队觉得这种方式已经很让人眼前一亮了,但大模型爆发的能量远比想象得还要大。整个 2023 年,OpenAI、微软、谷歌等大模型发布频繁,李开复、王小川等也亲自下场发布大模型去年 4 月,钉钉全面投入智能化,开始用大模型逐个将高频产品重做。到了当年六、七月份,钉钉内部有人提出:能否有一个直接 AI 原生的产品?这引发了内部关于从“ AI”到“AI ”的争论。这个想法与去年 10 月李彦宏公开提到的 AI 原生理论异曲同工,可见国内的探索思路其实差异并不大。那什么是 AI 原生?钉钉也在思索。其实在将思维转换成以 AI 为中心后,这个问题就不难回答。“AI 原生产品从一开始的思考就是全新的,就是要用纯 AI 的思路来解决一个任务。它从数据感知、任务分解,再到思维链,最后到行动执行,是一种全新的思考架构。”不穷表示。而对于做 AI 原生的方式,钉钉选了 Agent。-9-对话先行者洞见新未来对于与国内大模型公司的关系,用不穷的话说是:“我们依赖这些大模型公司,它们是我们的发动机和心脏。没有它们,我们无法运行。”面向 AI,不穷把钉钉定义为 AI 应用创作平台,企业在这个平台上连接、开发和加工各种应用。钉钉的核心任务就是连接场景和数据,实现结构性自动化和批量处理各种工作,并通过 Agent 让创作变得更简单。具体来说,钉钉的职责是确保外部记忆存储部分的完善,包括短期和长期记忆的处理,同时做好任务规划,之后将大模型生成的内容与本地业务数据集成,并将形成的行动在各个系统中落地。在不穷看来,当前国内各个基础模型之间的差距并不大,未来不是每个开发者都会关心基础模型的选择,他们更注重解决业务场景中的问题。因此,如果基础模型效果不理想,开发者应该可以随时更换。因此,为快速上线和体验,钉钉选择了通义千问作为默认大模型,除此之外用户有需求时还接入了其他大模型公司的模型,如智谱 AI、月之暗面、Minimax 等。用户的业务逻辑可以建立在自己选择的基础模型体系上,业务流程和数据流也不会进入钉钉平台。“根据不同的场景和需求,我们可能还会推荐小模型或专用模型。”不穷说道。不穷在给用户提供模型的选择建议时,会提醒他们更加关注模型的性能,如每秒处理的 token 量;大模型的安全性问题等,如本地部署还是云上部署;工程解决方案的多重性和便捷性等。这些问题也是钉钉构建 AI 助理时实际遇到的。“C 端还没有太多优秀的产品形态出现”无疑,GPT Store 的模式吸引了大批用户:刚正式发布时,OpenAI 就宣称已经有超过 300 万个 GPTs。与传统软件相比,AI 助理、GPTs 等的不同之处在于拥有非常快的更新速度,模型、交互方式、数据和产品形态等方方面面都变得迅速,开发者也不要从头到尾进行开发和维护。这种模式还大大降低了开发门槛,没有研发背景的人也可以尝试,而对于研发人员来说则大大缩短了研发、测试等成本。-10-大模型领航者AIGC 实践案例集锦“SaaS 挣不到的钱,会通过 Agent 挣到”相较 C 端,B 端是不穷更看好的方向,因为 To B 场景更容易产生有效的产品:确定的数据和场景可以帮助解决大模型的幻觉问题,同时通过批量和自动化的方式提高 To B 常见工作流和任务一方面,这意味着传统软件的研发模式可能会面临变革;但另一方面,不穷也指出,百万千万级的 GPTs 目前看相对来说形式比较单一,没有传统软件那样强大的业务理解能力,因此目前 GPT Store 中的应用很难成为高价值产品。不穷认为,尽管 GPTs 的创建能力很强,甚至一天可以创建几十个,但它目前还代替不了传统软件市场。钉钉也在寻找有价值的产品。在 1 月份宣布启动的 AI 助理创造大赛上,目前有超过 2000 支队伍提交作品,不穷也会亲自体验这些 AI 助理,寻找优秀的作品。那么,个人玩家又如何在 GPT Store 这种模式中赚到钱呢?不穷的答案是价值,“只要有价值就一定能挣到钱,只是迟早的问题。”在他看来,个人或企业创建 AI 助理的核心在于要解决具体的问题,解决问题本身就有价值。但现在“卖工具”的人可能不是最终解决问题的人,解决问题的人是那个场景中离问题最近的人。AI 助理的商业模式则与传统软件相似,需要一定的用户使用量,“只要使用量上去了,很快就会有开发者赚到第一桶金。”根据不穷的经验,一旦调用量达到百万次,软件做商业化就是必然的。这与之前钉钉在与 IDC 联合发布的2024 AIGC 应用层十大趋势中提到的观点“新一轮的 AIGC 之争,也将会是一场流量入口之争”是契合的。钉钉在其中也提到了有望成为超级 App 的想法。“在目前的 To C 场景中,我还没有看到太多优秀的产品形态出现。”不穷说道,“但是,AI Agent 绝对不是自我陶醉,我相信一定会有出色的产品出来,应该给创新者更多的时间。”根据不穷之前的访谈,AI Agent 和智能助理产品发展到一定程度后,中间态、碎片化的产品成为极简流量入口,就会出现“No App”理念重塑应用的情况:通过对话即可直接调取、使用各种工具,更多非软件专业人员也能获得强大的系统服务。-11-对话先行者洞见新未来流的效率问题。不穷指出,To B 软件的目的是解决问题,所以这里天然聚集了大量的问题和数据。在这样环境里构建的 AI Agent,传统 SaaS 和 PC 软件软件的开发流程、产品交互、形态及维护等的缺陷都将得到弥补。未来,SaaS 的定制化或各种行业需求,都可以用简单、低成本的方式实现。“Agent 市场形态肯定会取代传统软件市场形态。更重要的是,它将取代传统 SaaS 的产品形态。”不穷说道。现在 AI 助理的 to B 服务中,钉钉要与用户频繁、深入地互动,根据反馈不断调整和改进。比如在解决一家芯片企业客服培训难题时,钉钉团队要去公司了解实际工作流程,然后将线下流程转化为线上的 AI 助理。虽然每个企业的需求相同,但产品会逐渐沉淀下来。企业自行完成标注、训练和本地化数据接入,钉钉则保留抽象层和公共层,逐渐完成产品的广泛行业适用性。不穷评价 OpenAI 做产品就像是科学家通过成千上万次的实验,最终找到一个正确的方向,逼近科学真理。而钉钉则投入大量时间与客户共创,解决他们的实际问题。两者虽然方向不一,但殊途同归。与大模型创业公司苦苦寻找自己的商业模式相比,钉钉探索出来的大模型商业模式已有两种。第一种是基于调用量的模式。无论个人 AI 助理还是企业助理,产品使用频率越高、解决问题的能力越强,吸引的用户就越多,自然也就需要更多的调用。使用量大,消耗的算力和资源也就越多。第二种是应用层本身带来的商业模式。传统的 SaaS 模式赚钱较为困难,因为它需要大量的定制和本地化需求,AI Agent 的应用能力提供了一个解决方案:简洁的界面、任何需求都可以通过对话来理解,并通过行动系统对接外部系统逻辑,这样就将界面定制化和流程重构的职责就交给了后端模型和 AI Agent 系统。这样,从交互层到模型层,再到持久层,整个过程都得到了简化。因此,SaaS 的维护成本也就降低了。“AI 助理的盈利天花板目前还看不到,随着更多优秀产品的出现,我们可能还会发现新的盈利途径,带来新的惊喜。”不穷说道。不穷认为,通过消耗算力来提供服务只是最基本的模式,除此之外,服务消耗还有很多其他的可能性。他的判断是,未来十几年中国 SaaS 行业挣不到的钱可能会通过 AI Agent 来实现。-12-大模型领航者AIGC 实践案例集锦结束语在提到当前钉钉 AI 助理接下来要重点攻关的方向时,不穷还是说到了数据和场景:数据和场景是 Agent 普遍存在的问题,钉钉的 AI 助理现在有更专注的场景和数据,就像是给“孙悟空戴上了紧箍咒”,好处是能够减少幻觉、能够解决一些通用场景里难以解决的问题。这也意味着,钉钉未来还需要发掘和洞察到更多的场景、沉淀和积累更多的高质量数据。其次,行动能力是目前 Agent 所欠缺的,只是让它们聊天未免太乏味。因此 AI 助理会接入钉钉上原有的应用、低代码等开放能力,不穷希望以此让 AI 助理能够不断出现各种创新玩法,而不仅仅是简单的信息查询和单向交互。比如,AI 助理对接了很多的主流 App 行动系统,比如可以查看淘宝订单等,App 的行动系统实际上就变成了一个 AI 助理,无需在不同系统间切换。在不穷看来,Agent 的最大好处就是它的无限可能性,这种模式不受传统思维和现有框架的限制,是真的可以让想象力转化为生产力的。“我今年非常期待行动系统能够变得更加强大、数据质量得到提升。随着越来越多的人洞察到新的场景,AI 助理将不再是一个个废话大师、一个个应对亲戚的聊天工具、一个个面试官。”不穷说道。访谈里,不穷不掩对微软战略眼光的称赞。“战略需要耐心,如果没有耐心,那就只是投机。”同样地,钉钉对 AI 助理的耐心有多久?AI 助理未来的价值能有多大?这些也是不穷现在要面对的课题。扫码分享文章-13-26 岁带着百人团队冲刺大模型,面壁智能天才 CTO:高效比参数更重要“尽管有所谓的 百模大战,但实际上,国内真正能够成功训练大模型并掌握相关技术的团队并不多。”面壁智能 CTO 曾国洋说道,“不是简单地训练出一个模型就意味着掌握了全部技术。”面壁智能起于一群学术极客。2021 年,清华大学计算机系长聘副教授刘知远的牵头成立了面壁智能成立,团队成员主要来自清华大学 NLP 实验室,而曾国洋成为这家初创公司的技术 1 号位。曾国洋如今更以“天才少年”的形象被人熟知:8 岁学编程、高中去旷视实习、大二加入清华 NLP 实验室。人们通常很难将眼前这个 98 年的少年,跟“BMTrain、BMInf 主要作者”“OpenBMB 开源社区发起人”“当红大模型创业公司 CTO”等联系在一起,但 26 岁的他确实已经被推到了大模型时代的舞台中央。出 品|InfoQ 大模型领航者 主 持|霍太稳,极客邦科技创始人兼 CEO嘉 宾|曾国洋,面壁智能 CTO作 者|褚杏娟,InfoQ 编辑编 辑|蔡芳芳,InfoQ 主编-14-大模型领航者AIGC 实践案例集锦从自己 coding 到看别人 coding2022 年 8 月,面壁智能开始公司化运作。直到去年年初,面壁智能只有 10 个人不到。当时的曾国洋依然活跃在编程一线。作为程序员的曾国洋,是早期第一批申请试用 GitHub Copilot 的用户之一。他把 AI 看成是合作伙伴:AI 辅助程序员完成某些任务,而程序员则可以专注于更具创造性和战略性的工作。“我很喜欢能够帮助加速编程的工具,”曾国洋说道,“我们不应该简单地认为只要代码被写出来,程序员的工作就完成了。编写代码只是程序员工作的一部分,如何将想法架构化以及合理划分模块并确保它们之间的有效协作等,都是程序员工作中相当重要的一部分。”去年 5 月份后,面壁智能的规模越来越大,内部也设立了数据处理、模型训练、模型评测、算法、Infra、运维等不同的团队,以便更好地训练大模型。他的工作重心逐渐转为保证组织的有效协作。在此期间,面壁智能迎来了许多对通用人工智能(AGI)充满激情和信仰的年轻人,“他们对 AGI 有浓厚的兴趣和追求,甚至愿意降薪过来。”但在爆火之前,大模型并没有被广泛关注和应用,因此有相关经验的人才很少。这意味着几乎所有人都是从头开始学习和探索大模型。因此,团队在招揽新人时并不把大模型经验放在首位,而是更看重候选人的学习意愿、对新技术的热情、以及创新和解决问题的能力。如今,面壁智能已经拥有超 100 人的科研团队,平均年龄 28 岁。这支团队的“清北”含量 80%,此外还有来自阿里、字节、百度等一线公司的骨干。面壁智能没有给技术团队设立严格遵循 KPI 的管理形式,也没有在每一个非常具体的时间点设定明确规划,只是制定了一个大概的发展节奏和方向,因为合作的都是顶尖聪明的同事,而聪明人是会自己给自己定目标的。“我们要做的不是个人明星,而是明星团队,让聪明人能更好地合作、互相创造价值,一起创造更伟大的价值。”面壁智能倾向“小而美”的技术团队。曾国洋强调,“小而美”并不是说团队规模小,而是指团队能够保持高效、灵活和创新的状态,成员能够频繁交流、头脑风暴,共同推动项目发展。对于技术创业公司来说,这样的团队更加敏捷和灵活,更容易产生新的思想和创新。每个成员能充分发挥自己的专长和创造力,同时快速响应市场变化和技术演变。大模型团队的研发速度可以用争分夺秒来形容。面壁智能团队之前以两周为单位的内部迭代频率-15-对话先行者洞见新未来已经成为过去式,如今的节奏已经将近一周一迭代了。不断演进期间,也让面壁智能对自己做的事情有了更深入的思考。不再一味追求参数国内庞大的市场规模为大模型创业提供了巨大的发展机遇,但 OpenAI 等国外公司的频繁迭代,确实也给了国内公司很大的技术压力。时至今日,很多公司的大模型发布出来时,都是对标的 OpenAI。不过,曾国洋表示,“我们并不过分担忧落后的问题。”他分享了一段自己的经历:ChatGPT 刚刚发布时,大家都赞叹它的强大能力并讨论需要投入多少资源才能追赶上。后来,我自己投入了一些资金,买了几百条数据训练我们的模型。那次训练完测试后,我感受到了 ChatGPT 的那种效果。这个瞬间让我意识到,我们离它实际上并没有想象中那么遥远。这个经历不仅让我自己感到振奋,也给了我们团队巨大的信心和动力。它证明了我们的努力和方向是正确的,只要我们继续坚持,完全有可能达到甚至超越行业领先者。曾国洋有作为技术人的自信和思考。“我们将 OpenAI 的成就和国际市场的竞争态势当作一种衡量自己的标杆,但不会盲目跟随。我们清楚地认识到,OpenAI 的技术路线可能并不适合我们,我们需要根据自己的实际情况和优势来制定发展策略。”曾国洋说道。回顾 2023 年,面壁智能一直略显低调地走在大模型潮头:当年 5 月,发布了百亿参数的 CPM-Bee 大模型;年中,推出了千亿参数多模态模型 CPM-Cricket,综合能力对标 GPT-3.5、超越 LLaMA 2。但在 2021 年、2022 年,国内在大模型上进行了大量探索,但最终都没有出现一个像 ChatGPT 的突破性应用。这让面壁智能的技术团队意识到,一味地追求模型参数量行不通,训练出一个大模型也不是最难的部分,更难的是如何突破模型的智能极限,在用同等参数、同等数据量的情况下,更快速低成本地跑出更好的模型性能。在曾国洋看来,未来大模型的发展应该朝着高效率的方向发展:大模型要为用户带来更大的价值-16-大模型领航者AIGC 实践案例集锦和更广阔的商业空间,而这主要取决于模型创造的价值和创造这一价值所需的成本。今年 2 月份推出的 MiniCPM 模型就是面壁智能对大模型高效探索的样板间。发布会上,面壁智能 CEO 李大海提出了要“以小搏大”,曾国洋也表示 MiniCPM 用 2B 干掉 LLaMA 的 13B。这意味着,面壁智能正式进入小尺寸端侧模型的竞技场,并且还将其完全开源,以帮助大模型行业整体技术发展。起初,端侧模型并不在团队计划中,但是在测试中发现并验证了这么高性能的模型可以在手机上顺畅运行,这给团队打开了新世界的大门:一旦模型能够在手机上运行,他们就能在端侧探索出更多应用场景,如汽车、VR、智能家居等场景。端侧模型的优势在于,不需要频繁与云端服务器通信,因此处理速度更快;在本地设备上运行,不需要消耗大量的网络带宽和云计算资源,具有成本优势;可以在没有网络连接的情况下仍然发挥作用,这意味着其可以在各种环境下稳定运行。端侧小模型的性能天花板也远未达到。在模型的极致效率方面,通过模型压缩、量化、剪枝等,性能可以进一步优化。其次,端侧设备本身也存在优化空间,硬件制造商可以考虑如何在硬件设计上更好地支持大模型运行。“我有预感,像 GPT-3.5 这样高水平的模型,可能在一两年内就能在移动设备,比如手机上,完全运行起来。”曾国洋说道。在面壁智能看来,大小模型的技术有互相打通、增进提升之处。面壁 MiniCPM 基座模型、多模态模型等“小钢炮”系列领先的端侧模型,都是基于公司千亿级模型研发路线延伸,将淬炼化的大模型训练方法下放至小模型训练中,来实现高效、低成本的模型训练与应用。“不会因别人而改变”变化,是大模型创业公司时刻要面对的问题。就像曾国洋常常被问到:Transformer 会不会突然被新的技术取代,从而让之前的投入都白费?曾国洋对技术的快速变化并不过分担忧。“技术的发展是一个循序渐进的过程,不可能一夜之间出现一个全新的技术彻底颠覆现有的一切,而我们对此毫无准备。”在制定研发路径时,团队也是根-17-对话先行者洞见新未来据技术发展趋势和团队正在进行的工作,逐步调整目标和方向的。对于市面上时不时蹦出来的热点模型或产品,曾国洋也表现得很冷静。以 Sora 为例,曾国洋认为这显示出人们对创意性工作的兴趣,但对于是否跟随这一技术路线则需慎重。“对于创业公司来说,需要格外考量战略目标与投入成本。即使是资金充裕的大公司,虽然有能力进行,但产出并不总是明确,短期内可能无法快速为大众提供实质性的服务。”曾国洋说道,面壁智能致力于将技术更好融入到实际产品和解决方案中。对于前段时间刷屏的月之暗面 Kimi,曾国洋则一方面表示肯定,“Kimi 用户的增长迅速,表明它成功地解决了一些用户的痛点”,另一方面也反思自己,“可能没有充分利用我们在某些方面的先发优势。”他特别提到了去年 5 月份面壁智能推出的一项读论文功能,虽然早就有了类似产品,但当时很可惜没有深入挖掘和清晰传达该功能可以解决的痛点。但曾国洋强调,面壁智能的战略不会因为市场上的其他产品而改变。“我们一直在寻找大模型技术在普通人生活中的应用,并努力解决实际问题,而不仅仅是提供通用的解决方案。”最近,李彦宏“开源模型会越来越落后”的观点也引起了很大的争议,有人“力挺”、有人“怒怼”。对于面壁智能来说,开源是成立之初就做好的选择。正如李大海所说的:“我们一直是开源的受益者,所以也希望做出自己的贡献。并且,一款拥有良好口碑的开源模型,一定是经受住了方方面面的反复检验,在模型性能、体验等综合表现方面,拥有远超过 PPT 成绩的行业认可度。对于我们研发团队,一方面是 360 度无死角的考核压力,另一方面在挑战成功后也会有巨大的成就感。”曾国洋坦承,开源模型要追赶闭源模型确实会面临一定的挑战。这是因为在技术快速发展的过程中,闭源模型可能会因为有更好的知识产权保护和商业秘密而获得一定的优势。这种情况下,开源模型需要同时关注技术创新和与闭源模型保持竞争力。当技术发展进入瓶颈期,那么开源和闭源模型可能就会在技术水平上趋于一致。在这种情况下,开源模型由于其开放性和社区的支持,会有更多的机会迎头赶上,甚至超越闭源模型。另外,开源模型的发展速度也取决于社区和市场的支持程度。如果有更多的个人和组织支持,那么开源生态的发展自然会更快。此外也很重要的一点是,开源本身在技术影响力的建设方面是特别重要的,可以更好地让大众体验团队的技术实力,从而在人才吸引力和市场信心提升方面取得更强的竞争优势。-18-大模型领航者AIGC 实践案例集锦“没有刻意区分 C 端和 B 端”对于以科研人员为核心创始团队的大模型创业公司来说,在战略、产品、经营等方面需要更强的专业管理者。2023 年,时任知乎 CTO 的李大海加入面壁成为 CEO,面壁向更为成熟的大模型商业公司迈下重要一步。今年 4 月,面壁智能又完成了新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。除了通过融资获取资金外,面壁智能目前已经能够通过提供服务和产品实现一定的收入。面壁智能是国内最早探索 Agent 的大模型公司之一。对于 Agent,每个公司、每个人的理解都不一样。在面壁智能看来,Agent 的边界还未被定义。“模型是底座是一切应用的基础,然后 Agent 是支撑应用很重要的中间层,”李大海认为,无论 to B 还是 to C,本质上都是“大模型 Agent 的上层应用”。曾国洋认为,Agent 实际上是介于纯大模型和通用人工智能(AGI)之间的一个中间状态或节点。Agent 的模型能力必须足够强大,才能有足够的智能理解和处理请求和执行任务。Agent 还需要与外部系统和接口进行交互,来不断拓展能力边界。同时,还能够调用已有的知识库来提供检索和回答服务。而对于大模型领域,李大海曾表示,大模型应用可能会百花齐放,然而通用千亿大模型不会太多,可能只有极少数的几家公司能够最终突出重围。这基本也是行业的共识,基座模型的角逐注定是千军万马过独木桥。那么,大模型公司做应用是对应用侧公司的一种降维打击吗?曾国洋坦言,大模型公司由于其先进的技术和强大的数据处理能力,可能会对那些依赖传统技术或缺乏足够技术储备的应用公司产生影响。如果应用公司的技术壁垒不够坚固,就可能会在大模型技术的快速发展和迭代中受到冲击。例如 Jasper AI 这样的 AI 内容提供商可能会因为 OpenAI 发布了新的 ChatGPT 版本而受到影响。然而,他也表示,应用公司也有自己的竞争优势,比如对特定市场的深入理解、强大的客户关系和品牌忠诚度等,这些都是他们的“护城河”。2024 年,行业更加重视应用落地是当前的大趋势,因为目前模型已经基本可用了。李大海判断,从今年开始,大模型厂商会开始出现分层。但这个分层不是因为市场,更多是因为技术门槛:大家需要更强的模型、更高效率的推理,更好的 Agent 等,但不是每家公司都能跟得上这样的技术要求。“大模型是一个行业级别的机会,哪怕不做基座大模型,做应用层也有非常多的空间。但不是每家-19-对话先行者洞见新未来公司都能够持续做基座大模型的训练,期间有些公司可能就会转型做其他的事情。能活下来的公司一定是技术和产品市场能力都很强的选手。”李大海表示。对于未来的大模型应用,曾国洋提出了一种分工模式:一些简单的、重复性的任务由小型的、特定领域的模型来处理;而更复杂的、需要高级认知能力的思考任务则可能由大型通用模型来完成。结束语最初,人们普遍认为 AI 会先替代那些繁琐的工作,从而让人类有更多的时间从事创造性的工作。但现实情况似乎相反,AI 开始在创作领域发挥作用,而人类仍然在处理日常的工作任务。但曾国洋观察,大模型简化、加速开发任务是正在发生的事情。在创建大模型应用企业的交流中,技术人员并不需要掌握大量的编程代码,更重要的是他们对最终产品的理解能力。“对于想要有效利用大模型的人来说,掌握大量的编程能力并不是必需的。更重要的是能够将自己的思维方式与模型同步,确保模型理解并执行自己的想法。”曾国洋说道,“让模型理解你的想法是一种独特的体验,它要求用户对模型的运作方式有一定的了解,并且能够清晰地表达自己的概念和目标。”对于其他公司来说,大模型技术会以不同形式的工具、功能出现。面壁智能的目标是实现通用人工智能,团队为此有一个清晰的路线图,包括在文本模态上要达到的效果、未来向多模态和具身智能的转变等规划。2024 年,面壁智能将继续专注于模型的研发和优化。而面壁智能的选择能否助其顺利发展、实现自己的 AGI 理想,还需要时间来回答。扫码分享文章-20-大模型领航者AIGC 实践案例集锦这个离开大厂去 AI 创业的互联网大佬,带着他的“Killer Agent”来了“2020 年是一个不同寻常的年份。人们因新冠不得不停下来的时候,时任京东集团副总裁、技术委员会主席、京东商城技术负责人的黎科峰博士却选择了离职创业。此时的黎科峰博士,已经在互联网行业摸爬滚打了十余年。他曾在三星亲历了公司第一代智能手机诞生;在平安集团作为执委、平安金融科技 CTO 推动平安集团的用户和数据体系建设,以及金融科技云平台建设;在百度,作为原百度云计算创始成员推动百度云 OS 初创,也曾担任过手机百度总经理,带领实现日活跃用户 1 亿的突破。意料之外,情理之中。在经历了 PC 和移动互联网两次浪潮后,黎科峰博士明显感到 To C 的流量增长已经放缓,红利期基本结束,大厂们也开始在 To B 领域布局。To B 就是黎科峰博士给自己选的赛道,而这次他恰好赶上了大模型这波浪潮。出 品|InfoQ 大模型领航者 主 持|霍太稳,极客邦科技创始人兼 CEO嘉 宾|黎科峰博士,数势科技创始人兼 CEO作 者|褚杏娟,InfoQ 编辑编 辑|蔡芳芳,InfoQ 主编-21-对话先行者洞见新未来黎科峰博士一直说自己是“To B 新人”,但他创业 3 年后就让公司营收达到数亿元的成绩,已经无法让人用“新人”来定义他。C 端大佬,凭何入局 B 端“创业,始终是一条不同寻常的道路。别人已经走过并走通了的路,没有必要再去重复。”中国的 To B 公司大致有两种。一种是专注项目制和定制化服务的公司,根据客户提出的具体需求逐一开发。但问题是客户的需求是零散和片段化的,他们可能并不清楚自己的数字化是什么样的。另一种则是“Copy to China”模式,商业模型、产品理念,甚至 PMF 理论很多是直接从美国照搬过来。但中国的市场环境和美国不同,简单复制很难成功。企业内部通常分为利润中心和成本中心,其中成本中心包括了行政、人力资源、财务和 IT 部门等。国内许多 To B 软件实际上是围绕成本中心设计的,比如 OA 系统等,但这些软件的付费能力相对较弱,转化为直接业务价值的路径较长。正如黎科峰博士所说,“企业高层或数字化负责人很难有底气地说,企业增长的 20%-30%是他们带来的。”表面上看,国内数字化认知不足、大家付费意愿不强等都是 To B 企业面临的普遍挑战。但长期从事 To C 产品的经验告诉黎科峰博士,问题的关键是从业者没有解决真正的痛点、真正帮助用户创造价值,To C 还是 To B 反而并不重要。根据黎科峰博士观察,国内数千万的企业正在从过去依靠规模增长的模式,转变为追求内在能力提升和经营效率提高的模式。企业意识到,仅凭直觉和经验已经难以持续增长,开始寻求技术的帮助。但不同行业的软件使用者技术水平存在差异。电商、金融科技等互联网企业数字化水平较高,员工可以熟练使用复杂软件,但其他行业的企业就难以有效使用,致使其软件使用成本很高。因此,在黎科峰博士看来,To B 行业要真正发展,首先需要建立共识,即让市场参与者普遍认同软件或解决方案的价值,否则就得花大量的时间和-22-大模型领航者AIGC 实践案例集锦精力说服和教育市场。其次,产品必须足够简单易用,能轻松融入业务团队的日常工作,并且无需复杂培训。大模型产品完美符合上述条件。不用多说,大家已经对大模型的价值和潜力有了共识,这是一个非常重要的优势。另外,大模型降低了数据的使用门槛,让 AI 和大数据不再只属于技术圈,而是广泛的普通大众。如今,虽然不是每家企业都开始实际应用大模型,但至少都在研究、了解和学习。走得远的企业已经开始尝试将大模型技术应用于实际业务中,甚至有些已经签了商业合同。“这种对大模型技术的高度认可和期待,甚至超过了当年的云计算。”黎科峰博士表示。传统的 To B 软件十分复杂,大多数功能用户并不需要,同时很久都不做本质上的改进,长期保持最初的界面和功能。而通过基于大模型的软件,用户通过简单表达就可以实时、精确地找到所需信息,软件还能不断适应和学习,越来越贴合用户的个性化需求和使用习惯。“从这个角度来看,大模型技术会颠覆现有的 To B 软件,甚至让很多 To B 软件过时。”黎科峰博士补充道,“当然,现有的 ToB 软件开发商也会努力追赶,但他们可能会因为历史包袱而受限。”另外,大模型产品还将改变 To B 业务的决策关系。黎科峰博士表示,国内软件的使用者和决策者往往不是一线员工,而是不使用软件的管理层。大模型产品则让每个员工都能通过使用工具产生价值,这样决策链将不再只是老板,还有真正使用软件的员工,员工对软件效率提升的需求会影响决策者。如何实现大模型价值落地?“现在的大模型就像一个全科研究生,而 Agent 是帮助它成为某个特定业务领域专家的实现方式。”在明确了大模型对于 To B 的影响后,该如何应用大模型呢?困扰很多人的首先是如何选择大模型。根据数势科技的基准测试,国内大模型产品之间的差距并不显著,与国际领先的模型,如 GPT-4 等比较,算力、准确度等方面确实存在较为明显的差距。但对于如何应对和看待国内外大模型的发展差异,黎科峰博士认为,“核心是我们是否需要像-23-对话先行者洞见新未来OpenAI 那样投入巨额资金(数百亿)来发展大模型技术。”OpenAI 开始不计商业成果,致力于推动通用人工智能(AGI),后来也得到了美元基金支持,能够获得的资金是中国企业的很多倍。中国的大模型厂商在资源有限的情况下,需要从一开始就明确自己的方向,思考如何创造价值并实现商业化回报。这涉及到选择哪些方向进行投资,以确保资金的使用更加高效和有针对性。另外,大型企业和创业公司开发的大模型产品方向也各有千秋。大企业开发大模型有明显的资源优势,比如丰富的计算资源和大量数据积累,然而也面临着诸如如何将大模型整合到现有业务和产品线等较重的商业化包袱。而创业公司没有历史包袱,通常从大模型原生视角出发,不受以往业务约束,更自由地探索和创新,因此某些产品的体验可能不逊色于大型企业。当前,一些财力雄厚的大型企业,如银行和国有企业会先投资建立大模型基础设施,如购买 GPU 和部署具有数千万、甚至数千亿参数的大模型,然后逐步挖掘需求和应用场景。但更多的企业是先找应用场景,再立项、部署大模型。这些企业会梳理出一系列需求,然后据此决定大模型的应用方向。例如,如何快速准确地找到数据、基于数据进行分析、洞察业务问题以及指导经营以提升成果,通常是很靠前的考虑因素。黎科峰博士透露,目前率先尝试大模型应用有经营分析(与数据紧密相关的金融、零售和高端制造行业)、内容生成(如营销活动所需的视频或图片生成)、企业知识库(从企业内部的知识库中提取关键信息,以便员工更好查找和学习)。企业经营分析是目前企业最感兴趣的领域,超过 90%的企业表现出了明确需求。大模型具备知识、智商、学习能力和推理能力,能够总结和生成新的见解。AI Agent 的本质是智能体,内部包含许多规划业务流程规划器,能够完成基于业务目标的任务规划和自动执行。数势科技的做法是,大模型叠加 Agent,让企业应用具备记忆、反思和学习能力,能够调用企业内部工具并不断迭代反思,真正实现业务价值落地。不过,找到了应用场景后就让 To B 赛道的创业公司短期内盈利,黎科峰博士认为这并不合理。“很多企业在没有想明白胜利逻辑和商业化可能性之前,就急于跟风,最终导致失败。”黎科峰博士说道,一个企业的价值不在于目前是否盈利,而是在于它的商业模式是否成立。就像美国的许多企业一开始并不盈利,但找到正确的盈利模式后会非常赚钱。黎科峰博士认为,这背后的关键原因是,企业要找到产品能够为企业带来的业务价值,并且具有强大的复制性,实现边际成本递减,这样才能实现高额盈利。-24-大模型领航者AIGC 实践案例集锦如何在内卷的环境里赚到钱?“盈利可以通过裁员或非健康的手段实现,但这并不是我们追求的。”“商业化是在大厂打工不需要太考虑的问题,但自己做企业就要考虑怎么活下去。”黎科峰博士曾在分享中说到,但他在大家还在探索大模型应用的时候,已经用大模型 Agent 赚到钱了。“真正赚钱的是上层应用。”黎科峰博士分析道,未来,全球企业的业务经营将依赖于工具,而不是人、政策或剥削员工。最有价值的企业将是那些拥有数据、能够通过工具提升效率的企业。黎科峰博士创建数势科技之初,公司重心是构建数据资产层,通过打造企业指标平台和标签平台将企业海量数据转化为可使用的数据资产,释放数据价值。但产品使用门槛较高,更加适用于数字化程度较高、拥有较多数据技术人员的企业。大模型出现后,数势科技为企业用户提供数据分析 AI Agent,用户可以基于自然语言对话进行交互,如此降低软件的使用门槛,管理者、业务人员等非技术人员都可以准确、即时、个性化地进行数据査询和业务洞察,提升决策能力。数势科技大模型 Agent 产品(SwiftAgent)架构图-25-对话先行者洞见新未来结束语“我带着一种无畏的态度进入这个行业,我没有过往的包袱,也没有已经形成的固定模式,这让我能够更自由地探索和创新。”4 年前获得腾讯亿元天使轮融资的黎科峰博士,如今依然站在 To B“数势科技的优势是使用软件和算法解决问题,而非人力。”黎科峰博士说道,“我们的人员效率很高,是因为我们用技术解决传统上需要大量人力的问题,这也是为什么我们能够实现良好的盈利。”那黎科峰博士一直强调的“用户价值”,是如何体现在产品中的呢?他举了一个例子。在零售行业,一家茶饮连锁企业面临的挑战是如何让店长进行数据分析。由于店长的教育水平普遍低于科技或互联网公司,让他们快速、高效地利用传统 BI 工具做数据分析并不现实。而通过数势科技对话式、低门槛的数据分析和决策产品,店长能够通过简单的语音输入获取需要的数据,并理解数据变化背后的原因,从而更好地经营门店。如此,门店的运营不再简单依赖店长能力和经验。国内市场存在一个非常普遍且残酷的问题:在资本市场状况良好时,任何一个新概念的出现都会吸引一大批公司迅速进入,结果就是甲方难以选择供应商,最终仅靠价格抉择。市场也因此变得越来越卷,好的产品和公司不得不参与价格战,最终可能出现经营困难,造成了“劣币驱逐良币”的局面。大模型市场正在历史重演。To B 企业要在如此的竞争环境中脱颖而出,黎科峰博士认为关键有两点:一要真正理解数据智能和 AI,并有深厚积累,这是企业的基因;二是要回归客户需求、懂行业知识,讲能够引起客户共鸣的故事。在产品技术方面,企业最重要的是想清楚 Agent 与大模型的依赖关系,优化 Agent 产品设计,使其更加高效地运作,减少与大模型的交互次数,仅将必要的任务交由大模型处理,从而节省资源。在业务需求方面,数势科技并不是什么客户、什么行业都做,而是选择自己擅长、有很深 Know-how 的。这基于黎科峰博士多年大厂经验的总结。“在做技术负责人的时候,我的考核标准也不是单纯地看技术有多炫酷,而是技术能不能让企业赚钱、省钱,产品最重要的是为客户创造价值。”-26-大模型领航者AIGC 实践案例集锦的赛道上。虽说“好风凭借力”,但黎科峰博士清楚地表示,大模型技术虽然非常有潜力,但本质上依然是一个工具,是用来帮助企业实现业务目标和战略的。对于黎科峰博士来说,大模型是武器,核心竞争力是自己懂业务、懂技术。未来,数势科技利用大模型还能创造怎样的成绩,我们拭目以待。扫码分享文章-27-对话先行者洞见新未来极客邦科技以 KaaS 模式(Knowledge-as-a-Service 知识服务化)服务数字人才全面发展技术峰会同侪学习在线课程企业培训数字技术领域 知识和技能资讯个人企业专家双数研究院数字化转型案例InfoQ 研究中心极客邦科技,以“推动数字人才全面发展,助力数字中国早日实现”为己任,致力于为数字人才提供全面的、高质量的资讯、课程、会议、培训、咨询等服务。极客邦科技的核心是独特的专家网络和优质内容生产体系,为企业、个人提供其成功所必需的技能和思想。极客邦科技自 2007 年开展业务至今,已建设线上全球软件开发知识与创新社区 InfoQ,发起并成立技术领导者社区 TGO 鲲鹏会,连续多年举办业界知名技术峰会(如 QCon、ArchSummit 等),自主研发数字人才在线学习产品极客时间 App,以及企业级一站式数字技术学习 SaaS 平台极客时间企业版,在科技人群、科技驱动型企业、数字化产业当中具有广泛的影响力。欢迎关注极客邦科技公众号您有任何建议、反馈、投诉,或者表扬欢迎扫码,直达 CEO 霍太稳-28-大模型领航者AIGC 实践案例集锦观点碰撞OPINION-29-对话先行者洞见新未来大模型开闭源争吵不休:开源落后闭源一年,决定模型能力的不是技术?“开源和闭源之争,在大模型时代依然延续着。前不久,百度创始人李彦宏在内部讲话中发出“开源模型会越来越落后”的言论,再次将这一话题引爆。不仅有许多业内人公开提出不同看法,似乎还接连迎来市场层面的“回应”:Meta 时隔两日发布性能直追 GPT 4 的开源大模型 Llama 3,苹果、微软又各自开源了针对手机等移动设备的语言模型 OpenELM 和 Phi-3 Mini。然而,尽管开源模型在今天的崛起有目共睹,其背后的问题依然不可回避。由于本身的黑盒属性,开源的“众人拾柴火焰高”优势并不能完全显现在大模型上,甚至成本和效率更受影响。那么对于各个行业的厂商来说,身处如今的大模型市场,该做出怎样的选择?带着这一问题,InfoQ 特别邀请了零一万物开源负责人林旅强担任主持人,与 Data Strato 副总裁史少锋、华为 AI 科学家张敏、LLMFarm 创始人&CEO 宜博,一同探讨开源与闭源模型的现状、差异及未来发展。部分亮点如下:整体开源落后于闭源,以 GPT 为代表大概是一年时间的差距;模型能力的差异不在于开或闭,而是背后的人与团队;自建模型还是购买第三方服务,企业要根据各自的商业场景选择成本和合规需求最适合的部署方式;企业使用大模型可能不止一套,会像今天使用云一样是混合架构;正确认识大模型的能与不能才是避坑最好的条件。嘉 宾|林旅强,零一万物开源负责人 史少锋,Data Strato 副总裁 张敏,华为 AI 科学家 宜博,LLMFarm 创始人&CEO编 辑|高卫华,InfoQ 编辑-30-大模型领航者AIGC 实践案例集锦在访谈的第一部分,四位专家分别对开源、闭源大模型的成本能力和效益进行了分析;第二部分分析了两类大模型面临的技术和合规挑战;第三部分则是从实际应用与效果角度进行了分析。以下为访谈实录,经编辑。开源、闭源哪家强?林旅强:目前从模型能力的角度来说,开源阵营和闭源阵营之间整体是什么样的情况?张敏:大模型是从 ChatGPT 热起来以后,被越来越多的人和公司关注到,现在看是有开源、闭源之说。闭源的代表是 OpenAI,以及 Claude 也有一部分模型是闭源的。开源来看,从 Llama 1 到最新的 Llama 3,效果越来越好,大家也越来越认可这些模型,最近看到 Meta 的 400B 大模型,效果已经和 GPT 4 非常接近了。从开发者角度,我们希望能看到更多效果更好的开源模型,这实际上对整个大模型领域的繁荣可能会有更多帮助。宜博:个人认为,整个开源和闭源社区的模型分为三个阶段:小于 GPT 3 或者 3.5 的,接近于 GPT 3 和 3.5 的,接近于 GPT 4 的。去年上半年,OpenAI 发了 GPT3.5 和 GPT 4 之后遥遥领先于整个开源社区;到去年下半年时,开源社区的情况有了很大改变,发布了很多接近于 GPT 3-3.5 能力的新模型,今年上半年开始有一些部分能力已经靠近 GPT 4 的开源模型。整体来讲,开源社区当前还是落后于闭源社区,如果以 GPT 为标准呢,大概是一年时间的差距。开源社区其实一直处在追赶闭源社区的态势,但这种差距在缩小。今年上半年又发了 Sora,开源社区开始追 Sora,到现在为止虽然做了很多努力,但效果还差很多。史少锋:刚才两位老师发表了他们的观点,我觉得整体上大家的感觉差不多,就是一开始闭源模型遥遥领先或让人眼前一亮,但随着更多的开源模型被放出来,开源的能力也在快速跟上。作为模型使用者,今天我们主要还是通过 API 的方式来用大模型,但现在新的开源模型能力越来越强,同时对计算资源的要求在不断降低。我们期待不远的将来,开源模型可以在本地跑起来,能够完全私有化地去支撑一些应用,这对我们有很大的吸引力。林旅强:那什么因素会严重影响开源和闭源模型的能力差异呢?针对这个问题,我个人认为开源和闭源模型的能-31-对话先行者洞见新未来力差异,重点不在于它开源或闭源,而是它的研发团队的能力差异。至于做出来的模型要开源还是闭源,是进一步从该公司的整体商业模式去考虑的点。之前 Llama 推出的时候,我非常兴奋,觉得终于有人运用开源来突围闭源的大模型了,因为训练模型成本实在太高,要开源本来就不容易;虽说至今二者仍有些差距,但如果不开源就没机会给开发者和产业界有另一种选择了。史少锋:的确,模型会很依赖于开发团队的工程能力,并不在于开源还是闭源。今天的开源模型也并不是真正的开源,正如百度创始人李彦宏所说,大模型本身就是一个黑盒子,并不能指望社区有多少贡献。除此之外,模型还依赖于掌握的数据语料质量、丰富程度以及算力规模。这也是为什么今天我们看到,只有非常大型的公司才能开发出让整个业界为之一亮的大模型。宜博:我认同开源和闭源对模型能力的影响并不在于形式,而在于背后的人,和背后的团队所持有的资金、算力、数据。林旅强:大模型跟开源软件有一点很不一样的地方,就是开源软件有可能因为社区不断有代码贡献而变得更好,但现在业内所谓的开源大模型则是把权重 open 出来,没办法以开源社区贡献上游的模式让算法和数据质量更好,确实很依赖出品团队的能力,如数据、框架算法调优、算力门槛还有最新方法的挑选。所以在我们看来,模型能力的差异不在于开源或闭源,而在于团队的人才密度有多高。张敏:数据、算力和算法对大模型都至关重要,算法是与团队是强相关的,这对于模型最终效果的提升是非常重要的。林旅强:刚才我们讨论到开源、闭源模型的能力,那它们的差距到底是逐步缩小还是增大?开源是不是会越来越不好?闭源越来越领先?宜博:我认为差距并不是持续扩大和缩小,而是永远在动态平衡变化的状态。林旅强:那照你的描述是不是永远闭源走在前面,开源在追赶?宜博:这一点其实是由行业现状决定的,比如在服务器领域,Windows 现在很难追得上 Linux,iOS 有一些领域也追不上安卓。大模型领域是由 OpenAI 开始主导的,所以在其领头羊位置不变的情况下,不管是闭源还是开源的,只要落后于 OpenAI 都是在追赶。林旅强:所以这个问题应该调整为,GPT 跟其他模型的能力是逐渐缩小还是扩大。史少锋:站在百度文心一言的角度来说,我理解他们在思考的是有没有必要做开源,开源模型并不一定能像普通开源软件那样有“众人拾柴火焰高”的效果,反而要花费更多的时间和精力去做各种合规、对外发布、问题收集等流程。在这种情况下,他们认为开源没有必要,闭源的话效率更高,可以使团队更加聚焦于训练下一代模型。某一天 OpenAI 把大模型开源了,是否能代表开源打倒了-32-大模型领航者AIGC 实践案例集锦闭源呢?我觉得也不是。林旅强:那从成本、能力、效益分析的话,部署自己的大模型与使用第三方大模型在初期成本上有什么不同?长远来看,自建模型与购买模型服务在成本上又会如何变化?宜博:我们做了很多轮实践发现,假如第一次去验证模型,用 API 调用是最划算的,因为 API 用量很少。但如果要跑数据,一定要用自己的服务器和开源模型去做,否则成本太大了。比如我们曾经有个项目,大概算下来,全部跑 API token 比自己购买服务器的成本要贵 200 多万。再就是推理部署的未来环境,用户量大到一定程度后会有个临界点,可能就用自己的服务器比较划算了。所以,要根据大家各自使用的场景去选择不同的成本策略。张敏:从我们对接的客户来看,他们是更希望通过本地的私有化部署来做业务支撑,这对数据安全是非常有好处的。史少锋:站在用户的角度,我觉得今天的 SaaS 大模型服务已经非常便宜,如果自己去搞部署,那成本就高了去了。目前 Open AI 的价格不代表以后,大家都在卷,很多价格会更低,国内甚至有免费开放给公众使用的。对于 To B 领域,可能第一考虑的是数据安全,To C 没有看到用私有化部署的。林旅强:确实,除了部署成本外还有一些隐性的成本,比如客户是不是愿意模型平台把他通过 API 所调用的数据拿出去再训练。个人去使用的话,API 确实门槛比较低,现在各家的价格都还算是比较便宜。那如果从总体的成本控制方面,企业应该如何去选择适合自身的大模型策略?我个人认为要看企业本身想怎么用大模型,如果单 API 就能够解决且量没有很大的情况下,先去把 API 稳定地搞起来;但如果要结合非标的数据场景去做,那只能加上开源的部署。宜博:企业真正在用的时候,一般是一个递进的验证过程,首先用最便宜的 API 去验证 POC,甚至直接在 ChatGPT 上免费验证,之后如果有开源的部署需求,再去验证场景。过程中需要企业自己想清楚,如何在满足场景的情况下选择成本和合规需求最适合的部署方式。林旅强:我想补充一点,之前有人问国内是需要私有部署的多还是调 API 的多,我就说要先看合规问题。因为现在有政策要求用国产服务,但还有一些人是用了“套壳网站”调外网大模型的 API。张敏:大模型也有参数量的大小区别,我们真正在给客户在做应用时,还是要根据业务领域的效果来看。在百度的文心一言里,也是用大模型和小模型一起来支持用户需求。史少锋:企业使用大模型后,可能也会像今天使用云一样是混合架构,根据不同需求一部分可能会放在公有云上,一部分放在私有云。为了确保-33-对话先行者洞见新未来应用端的用户无感,可以把 SaaS 版的大模型作为一个 Plan B,相当于做了一层保护机制。综合而来的话,以后企业可能不止一套大模型。林旅强:我也想补充一下,现在所谓的大模型到底多大?从成本能力与效率分析来讲,我们也得把大模型分为不同档次。虽然 scaling law 是存在的,但越大的模型性价比越往下;而小模型现在要做出效果的门槛其实也很高。目前不管多大的模型都有各种不同的成本要去考虑,所以最终还是需要回到具体场景和商业产品的本质来看。技术与合规挑战林旅强:在技术实现层面,自建大模型与采用第三方模型在技术难度和支持上有何不同?宜博:现在自建大模型一般有几种难度:第一种是买一个小机器放在办公室,如果要买高算力机器放在机房或者自建机房,难度指数是很高的;第二种,有了算力去部署时,也会遇到各种各样的问题,如推理框架选择、速度、机器使用等,这些对于没有专业技能团队的非技术企业消耗很大,过程中虽然所有技术人员学了很多东西,但公司的环境部署和上线成本非常大。史少锋:我觉得这个问题并不是很精确,自建大模型和用第三方模型的技术难度和配置不同。今天大家都在用第三方模型,但自建大模型还是偏少,大家更多还是用外部做得好的模型,区别就是自己部署的大模型和第三方 SaaS 大模型之间的区别。就像刚才宜博说的,自己去部署要操心的是方方面面,包括硬件采购、运维、算力扩容、模型部署和升级、调优等。相较而言,用第三方模型更简单,很多代码拿来就可以用,但这个情况也在逐渐改变。随着开源生态越来越健全,软件也越来越丰富,下载速度可能更快,以后笔记本都能跑一些参数不太大的模型。在并发量或需求量不太大的场景下,自建大模型不会比第三方模型复杂太多,gap 会逐渐缩小。张敏:用开源大模型去做部署就像站在巨人肩膀上,会走的更快。自建则需要具备很多前提,如数据、算力、算法和好的团队,成本可能要远高于使用开源。林旅强:自建大模型的难度比较大,技术实践已经是一道门槛,像开发者本身的能力水平、背后-34-大模型领航者AIGC 实践案例集锦商业机会以及交付能力等。直接采用第三方模型,也需要运维、部署的知识能力和资源投入。所以企业还是要按照能力和成本考量去选择。另外,我们都知道大模型可能涉及到数据安全和个人隐私的保护。在自建与第三方模型使用中,数据安全与隐私保护分别面临哪些挑战?大家怎么去做呢?最简单的是,担心就全部私有化部署,如果数据不需要任何安全和隐私保护,就全部调 API。也就是说,还是从业务角度去选。宜博:实际上我们会遇到几种情况,第一种情况就是直接调用闭源模型的 API,他们号称数据不会被拿去训练,但实际经常会发现数据被使用了;第二种是当你用三方算力平台训练模型时,也会发现有自己训练数据被拿去的情况。大家知道现在监管非常严,内部虽然保证数据安全和隐私,但实际上做合规很耗精力,面临的细节挑战还蛮多。现在整个落地量不大,所以问题还没有那么凸显,但我认为未来会逐步变得重要。史少锋:针对大模型,我认为不管是自建还是第三方、私有化部署还是公有,都应该足够重视数据安全和隐私保护。即便自建大模型,训练时没有识别出数据隐私,也可能导致信息泄露。而开源模型正因为要开放给众多用户,在安全和隐私方面也可能做得很好。Meta 发布的 Llama 3,就花了很多功夫在多个层次进行安全检测。这就像我们经常讨论的,闭源软件安全还是开源软件安全?闭源软件可能因为黑客看不到源代码,所以找不到安全漏洞,但不为人知的漏洞可能会存在更长的时间;开源软件貌似因为代码开放容易被抓到漏洞,但因为被很多人盯着,促使其在不断地提高安全性,长久来说可能反而做得更好。张敏:数据安全对于大模型来说确实非常重要,训练时会牵涉到用户的隐私数据,抓取也可能存在攻击性数据,从而导致输出问题。另一方面,即使大模型做了私有化部署,使用过程中产生的数据也需要做安全保护。林旅强:再补充一个点,很多人在讲数据安全时并没有考虑到跨境传输。现在出海很热,实际应用来讲可能每个地区对于数据跨境的要求不同,在各个市场各自部署的成本也就更高。合规不只要考虑到中国,还有客户所在的国家,像欧盟、美国都会有相关的数据法规。实际应用与效果林旅强:利用开源或闭源大模型解决实际业务场景,在部署过程当中有哪些区分?大家分享一下-35-对话先行者洞见新未来踩过的坑,也教教怎么避坑。宜博:第一个观点是尽量用 RAG,不要一上来就做 SFT 训练;第二个是尽量不要一上来就用 Langchain,要花大量的时间去学习未来 90%都用不上的代码。张敏:我们去跟客户做支撑的时候,需要把用户场景和数据越早明确下来越好,这对于我们的方案设计和模型选择都非常重要。史少锋:关于大模型在具体业务场景的避坑,我觉得还是要实践出真知,有一套针对自己场景的测试数据集,因为大模型过于通用,并且也会升级。我们想到的办法是可以用另一个更高水平的大模型来对多个模型的输出打分。建立一套测试体系,对于不停迭代模型去提升结果准确性很有必要。林旅强:我觉得要能够正确认识大模型能够为你解决什么问题,作为避坑的前提条件。就像张老师刚刚讲的,很多客户现在误以为大模型跟神仙一样什么都能干,这其实是有问题的,大模型只是在某一些方面确实做得比过去好很多,甚至比人类强。但我们还是要把业务流拆解出来,哪部分去接入大模型?能够做什么?怎么解决幻觉问题?RAG 好在哪里、难在哪里?也绝不是那些开源数据集测评的打分越高代表越好,还是得从具体场景切入,认真把内部评测标准搞好,才会知道坑在哪里。所以我觉得,正确认识大模型的能与不能才是避坑最好的条件。现在线上有个问题,即使训练内部模型也需要对涉及用户的数据进行脱敏,在这方面有没有一些比较好的工具或经验?各位老师实际有没有接触过用户的数据,以及会用什么方式把用户的数据脱敏?史少锋:我们本身就是做数据治理,也调研了市面上很多数据平台在这方面的做法。成熟的数据平台都有一套数据合规方面的功能体系,其次会通过 AI 去识别数据中的敏感信息,在导出时提醒用户,还有一些敏感信息打码、用户访问 policy 以及数据溯源的配合功能。对于一些自建的大数据平台,是借助工具和统一平台去数据溯源、定义用户访问权限,来把风险被控制到最低。宜博:这块我们做的比较少,一般的客户数据就在本地或者企业内部查询了,脱敏拿出来的情况还比较少。张敏:我们这边做的更多是回复角度方面,如果涉及到敏感内容的话,会对回复做过滤处理或者换一种方式去回答。林旅强:那你怎么知道它是敏感的?张敏:我们会做一些检测,如果问题本身涉及到敏感词,就需要做过滤和管控。史少锋:其实常用常见的 PII 信息是有一套正则规范的,身份证号码、Email、社保号等都有,即便是文本型的识别也并不是特别难。林旅强:未来开源模型如何能利用好社区优势?有哪些方向和趋势?开源确实比较能实践社区的方法,闭源提供 API 的就只能是用户。在我看来,当前的“开源”大模-36-大模型领航者AIGC 实践案例集锦型并不是真的把数据或训练代码开源出来,而是把训练的结果也就是权重给 open 出来,海外也有称为开放大模型的。可是,它又不像是闭源软件的二进制,开发者又能基于开放大模型来做二次开发,例如 SFT、继续预训练等,情况有点介于软件开源和闭源光谱当中的中间态。因此,开源模型仍然有一定的被二创的空间,闭源模型则不太容易这样操作,所以我认为,即使开源大模型没有开源软件那么开放,但开源模型社区的优势就是可以有很多二创。刚刚说大模型太热,如何解决预期过高的问题?业务方老板可能误以为未来一切都靠 AGI 了,但其实当下能做的事非常有限,我们如何向这些没那么懂但手头有预算且脑中有想象的用户,去正确传递大模型的能力界限?宜博:我们从去年到今年做最多的就是给大家分享大模型是什么?什么能干?什么不能干?边界在哪里?背后的原理是什么?现在能真正把这些事情和自己的想法都传递给客户的团队还比较稀缺,希望有更多的程序员和技术领导者加入进来。第一,不要太高估短期大模型的能力;第二,不要太低估长期大模型的能力;第三,在当下把能落地的场景先落地。张敏:我们这边的做法是,通过 GPT 4 中目前我们认为的最好效果,让大家客观看到当前大概做到什么程度。史少锋:刚刚宜博说的是大家眼下不用对大模型期望太高,要知道它目前只是一个助手,还需要懂业务和有专业技能的人去做最后的把关,同时我们只有不断去试去用,才能找到最适合的方向。现在大家看到文生图出来也没多久,但有很多文章配图都换成了 AI,意味着这方面的生产效率已因此得到很大提升。林旅强:总结一下就是,AI 的天花板取决于使用者的个人理解和业务认知。在你的指导之下去做工作的 AI,不可能做得比你还厉害,你才是 AI 的天花板。当我们都了解到这一点,就知道它的局限。扫码观看完整视频扫码分享文章-37-对话先行者洞见新未来“国外一开源,国内就创新”!面对中美大模型差异,我们该突破还是继续模仿?“在人工智能领域,Prompt Engineering(提示工程)和 Copilot 已经成为了热门话题。然而,最近 Agent 也受到了许多业界领袖的支持。那么,Agent 与 Prompt Engineering 或 Copilot 在本质上有何不同?为什么有这么多人坚定地看好 Agent?未来,Agent 是否是大模型落地的正确方向?本文将探讨这些问题。本文基于数势科技创始人&CEO 黎科峰博士,百川智能联合创始人焦可,腾讯研究院副院长刘琼,蓝驰创投投资合伙人、TGO 鲲鹏会(北京)学员石建平以及实在智能联合创始人、CMO 张俊九等五位行业大咖在 InfoQ 主办的 QCon 全球软件开发大会的圆桌讨论整理。嘉 宾|黎科峰博士,数势科技创始人&CEO 焦可,百川智能联合创始人 刘琼,腾讯研究院副院长 石建平,蓝驰创投投资合伙人、TGO 鲲鹏会(北京)学员 张俊九,实在智能联合创始人、CMO编 辑|李冬梅,InfoQ 编辑-38-大模型领航者AIGC 实践案例集锦Agent 还是 Copilot?理解 Agent 的本质首先来探讨下 Prompt Engineering 和 Copilot 有何不同。Prompt Engineering 是一种通过设计高质量的输入提示来引导 AI 系统生成所需输出的人工智能开发方法。而 Copilot 是一种辅助工具,可以帮助开发者更好地与 AI 系统协作,提高开发效率。这两种方法都在一定程度上实现了人工智能的应用,但它们仍然存在一些局限性。张俊九认为 Agent 是对底层逻辑的描述,产品化后可表现为各种各样的形式。与 Agent 不同,Copilot 是在软件生态或其自身体系内的各种应用中提供辅助。例如,微软的 Copilot 或钉钉中的魔法棒等功能,它们主要通过底层 API 调用来实现场景中的辅助。而 Agent 则更多地基于底层技术,将大模型与现实世界连接起来。因此,Agent 需要具备上下文记忆、规划执行操作工具等能力。在具体场景中,可能会表现为 AI 魔法棒、百度文心助手等多种形式。焦可认为 Copilot 的概念在于帮助人们完成工作,而 Agent 在某些场景中可能会替代人类,百川去年 5 月份就提出了 Agent as a Service 的逻辑。后来 Open AI 的 Lilian Weng 提出了 Agent 架构的技术逻辑,她提出,仅有引擎或接口是不够的,还应具备记忆、规划和使用工具的能力。从产品角度来看,目前的 ChatGPT 类产品更像是模型能力的直接展示,不会是最终的产品形态,Agent 架构是落地的必然路径,值得大家深入研究。石建平从变化的本质提出了他的观点:“对于未来的应用,可能会有根本性变化的东西产生,大家不应该拘泥于Agent或Copilot 的术语称谓,我们更应该去抓住它的本质。”石建平进一步聚焦上一代的应用和这一代 Agent 的区别,阐述了他对 Agent 的理解。他指出,尽管两者都是软件,包含 component、state、logic、interface(组件、状态、逻辑、接口)等元素,但关键的差异在于逻辑和接口的演变,以前的逻辑都是固定的,现在的逻辑在 AI 驱动的软件中变成模型驱动的、动态自适应的;以前的接口 API 也是固定的,任何接口的变化,都需要修改程序,下一代的接口是动态的、更灵活的,可能是自然语言。这是一个根本性的变化,为的是提升软件的智能化和自主提升能力,有可能从单纯的数字大脑转变为具有感知和动机能力的数字人脑。-39-对话先行者洞见新未来讨论了这么多关于 Agent 的内容,那么,如此重要的 Agent 在大模型中起到了怎样的作用?刘琼指出 Agent 并非新概念,但随着大语言模型的发展,其潜力和应用场景将得到极大扩展。“Agent 是大模型落地非常必要和可行的路径。首先,它是大模型未来在行业落地中的一个重要应用形态,在从任务到工作的终极目标中,Agent 真正能替代人形成新的生产力,成为我们的数字伙伴的重要形态。其次,Agent 是连接大模型和现实世界,包括许多应用和现实问题的最后一公里。Agent 具备自我决策和学习能力,以及规划、记忆和可扩展工具的能力,使其在特定领域具有无限发展潜力,是大模型实现具体应用的必要途径。”张俊九认为 GPT 这种聊天模式存在“光说不练”的问题。因此,GPT 刚出来时更多是在 AIGC 等场景中提供能力,如图片、多模态材料的生成,这远远不能解决代替人进行操作的问题。“代替人进行操作可能会将大模型的应用场景更丰富地延伸出去。目前,我认为 Agent 的生命力比单纯的大模型要更加活跃,更具想象力。因此,Agent 一定是目前能看到的,与应用结合较紧密的大模型落地路径。”黎科峰把 Agent 比喻成一个学了非常多知识的研究生。他学过金融学、法律、计算机、物理、化学等,但真正要让他成为一个业务上的小能手,还有很长的一段距离。真正要把它落到企业端,落到业务端,Agent 需补充数据、知识库和方法论。“Agent 可以接管除了通用大模型能力之外的所有知识处理、逻辑处理、业务流程。所以,我们依然非常看好 Agent 在 To B 领域能够真正理解业务、进行决策、自动化执行、为结果负责的新范式。”焦可带着大家一起思考“第一次使用 ChatGPT 时,你们认为它对哪个业务产生了冲击?”焦可认为有三类:信息需求、娱乐需求、交易需求,而最先变革的将发生在信息类业务。原因是大模型是基于高维语义空间的类比,完全不同于以往的关键词精准匹配逻辑。以前的搜索引擎是无法阅读文档,无法解析和理解图片,也没有记忆,无法进行多轮对话,这是革命性的,新时代的到来一定是做到了以前无法做到的事情。因此,他建议大家应关注那些由不可能变为可能的新机会。石建平建议在那些对人类附加值贡献较高且需要实际物理交互的领域寻找切入点,比如教育和医疗行业,应优先考虑是否能被更好地数字化、智能化。“任何行业在高度数字化之后,成本将逐渐显现边际递减效应。特别是那些高度依赖人力和资源供给的行业,其发展越容易受到限制。人类的智慧永远是有限的,但数字人的供给是无限的。Agent 是连接大模型和现实世界的“最后一公里”大模型将颠覆哪些应用?-40-大模型领航者AIGC 实践案例集锦这为行业提供了广阔的发展空间。”刘琼分享了一个数据,到 2047 年,AI 在所有里程碑性任务列表上达到人类水平的可能性为 50%(其中很多任务是通过 Agent 方式实现的),这比 2022 年做的预测提前了 13 年。她补充道:“大模型落地可能比我们想象的要快很多。关键要看通用大模型的能力进化,它可以使我们现在完成什么样的工作,或者它能够产生什么样的新供给。”刘琼认为在培训、心理咨询和陪伴等领域,已经产生了一些新的供给,个人助理领域的发展空间和速度巨大。张俊九认为会是一种百花齐放的场景。个人场景中,AI PC 等技术可简化电脑设置,降低使用门槛。To B 领域中,Agent 能颠覆 RPA。过去,需要描述业务场景及需求,设计业务流程,然后再用低代码实现整个流程。现在一句话就全搞定了,Agent 能理解你想做什么,并且自动生成并执行流程,替代掉对工程师、数据分析师的依赖。“未来,真的很可能每个人都会配备强大的 AI 助理,它能在每一个具体的问题下,做出最合适的选择,马上让你看到不一样的效果。”Agent 技术作为大模型落地的关键路径,其发展前景广阔。随着技术的不断成熟和应用场景的不断拓展,Agent 技术有望成为推动社会进步和行业发展的重要驱动力。在全球科技竞争的舞台上,大模型技术无疑是最耀眼的明星之一。在美国,大模型技术发展迅猛,而中国如何在这场科技竞赛中找到适合自己的发展道路?大模型领域中美差距有多大?近年来,人工智能技术在全球范围内迅速发展,特别是在大型语言模型和机器学习方法方面取得了突破性进展。在这个领域,计算能力的提升也推动了技术的革命性进步。作为世界上两大的重要经济体,中国和美国在这场人工智能竞赛中扮演着重要角色。然而,人们不禁要问,在以大模型为代表的 AIGC 时代,中美之间的差距究竟有多大?事实上,美国在人工智能领域的研究历史悠久,拥有许多世界顶尖的科研机构和高校。例如,OpenAI、Google Brain 等公司和研究机构在大型模型研究和应用方面具有很强的实力。此外,美-41-对话先行者洞见新未来国还拥有先进的计算资源和设备,为人工智能研究提供了有力支持。中国在人工智能领域的研究也取得了显著进展。近年来,国内许多高校和企业纷纷加大投入,致力于大型模型研究。一些科技企业在深度学习、自然语言处理等方面取得了重要突破。此外,中国政府也对人工智能产业给予了大力支持,希望通过技术创新来实现产业升级。尽管中美两国在大模型领域的研究均取得了较大进展,但美国在这一领域仍然具有较大的优势。这主要表现在以下几个方面:研究基础:美国在人工智能领域的研究历史较长,积累了丰富的经验和知识体系,相比之下,中国在这一领域的研究起步较晚,尽管近年来取得了迅速发展,但与美国相比仍有一定差距。技术创新:美国在大型模型研究和应用方面拥有许多创新性成果,例如 OpenAI 的 GPT-3 等。这些创新为人工智能领域的发展提供了源源不断的动力。而中国在技术创新方面尚需加大投入,提高研发实力。计算资源:美国拥有世界上最先进的计算资源和设备,如超级计算机等。这些资源为大型模型研究提供了强大的支持。虽然中国在计算资源方面也取得了一定进展,但与美国相比仍有较大差距。国际合作与交流:美国在人工智能领域与国际合作伙伴建立了广泛的合作关系,这有助于推动大型模型研究的进展。而中国在这一方面还有待加强,以提高在国际合作中的影响力。就此问题,石建平发表了他的观点。石建平认为差距确实存在,但并没有想象中的那么大,国内团队的迭代速度非常快。他指出:“领跑者有其优势,但也付出了探索成本。国内追赶的速度会加快,所需的训练资源也会大幅减少。而关于芯片限制、禁运等问题,实际上,大部分真正有资源的大模型团队,在计算资源方面,并没有真正遇到最大的瓶颈。相反,资金方面的压力可能会更大,毕竟大模型是一个烧钱的领域。”焦可指出闭源模型客观上存在差距,随着技术的发展,对算力的要求越来越大,算力的限制是客观存在的。而开源模型的差距并不大,国内外的开源模型基本上处于同一水平线上。张俊九则提出了对标准和创新的反思。“我们是否应该将 OpenAI 等国外大模型的发展路径定义为正确的道路,这是值得反思的。目前,我们还在以他们为标杆,但未来可能并非如此。例如,Google 的 Transformer 工程师自己也在反思这是否过于耗费资源。”“为什么这些事情没有在中国发生,而是在国外?我认为这是最大的差距。最大的差距是我们缺乏从 0 到 1 的创新。同时,前段时间也有人调侃,国外一开源,国内就创新,这既是一种自嘲,也是一种调侃。因此,我认为最大的差距在于创新。”-42-大模型领航者AIGC 实践案例集锦正视差距才能不断缩小差距,那么,在这场大模型竞赛中,起步稍显落后的我们还是否有机会追赶上美国?刘琼认为在大模型应用方面,中国仍有机会。“我们调研中发现许多行业已经开始探索大模型方面的应用,许多研究报告也指出,2024 年将有更多应用落地,并将进一步加速发展。”同时,她认为国内在形态方面可能比国外稍微领先一些。尤其在端侧应用方面,大模型在更小尺寸或离人们更近的终端应用落地,在中国目前进展较快。许多手机厂商,如小米,已经推出了他们在手机侧的端侧大模型。同时,一些新能源汽车厂商也在进行这方面的探索和落地。焦可认为国内有多方面的优势,特别是在中文处理方面,国内的开源模型明显优于海外模型。海外模型中文语料库相对较少,例如 LLaMA 2 的中文语料只占 0.13%。而我们从一开始就采用双语教学的方式,因此,国内开源模型在中文处理方面肯定会更好。另外,他认为今年可能会有很大的应用机会。包括 Agent 架构可能会落地。“在模型上面可能要慢一步,但是我们希望能在应用上能够快三步。”黎科峰博士从大模型的四个重要要素:算法、算力、数据和场景分析。他认为“随着算法的开源,这种差距将会缩小。数据方面,无论是整体数据还是中文数据,我们都需要正视差距。尽管中文在全球知识中的占比并不大,但语言本身没有国界。对于中文数据,中国的大数据量将导致中文理解能力更强。”黎科峰博士认为场景非常关键。回顾移动互联网时代,中国市场对于场景的理解和深耕始终具有巨大优势。这也反映无论是在移动互联网时代还是 AI 或大模型时代,场景理解和深耕是一个更加明确且持续具有竞争力的重要因素。张俊九则以实在智能为例,介绍了他们在应用层面的创新。“我们去年 8 月份推出了 TARS 大模型及基于大模型的 RPA-Agent 智能体产品和解决方案。那时,我们也是全球首创,解决了两个重要的技术难题。因此,在应用层面,我们在解决具体问题时,仍有很多变通和技术重构的优势。”国内大模型的追赶速度和潜力不可否认的是,通过关注和理解国际上大语言模型的发展动态,我们可以学习和吸收先进的技术和经验,尤其是在算法、模型构建、数据处理等方面。例如,ChatGPT 的推出为我们提供了观察超级人工智能雏形的窗口,这有助于我们把握通用人工智能的发展趋势。跟随与创新之争-43-对话先行者洞见新未来然而,单纯的跟随并不能满足中国特有的需求和挑战。中国拥有丰富的语言资源和多元化的文化背景,对大语言模型的要求也更为复杂和特殊。因此,进行创新是必不可少的。创新意味着根据国内实际情况,开发适应中国语言习惯、符合中国市场需求的模型。例如,中国的大模型产品在处理中文文本、理解中国文化梗、响应中国特定场景方面具有独特优势。同时,中国拥有庞大的数据资源、丰富的应用场景和强大的工程化能力,这些都是我们进行创新的优势。我们可以依托这些资源,开发具有自主知识产权的大语言模型,推动中国在大语言模型领域的自主研发和应用。那么,我们到底应该更侧重于去借鉴模仿,还是探索一条更适合中国发展的创新之路?焦可认为根据大模型的 Scaling Laws(尺度定律),可以选择在不同维度上进行增加,可以选择在数据层面、模型深度、模型宽度、时间维度和场景维度等多维度进行增加,不同的维度可以走出不同的道路。但总体而言,只要你是基于 Transformer 架构进行增加,本质上就是一个算力和数据驱动的事情,但是可以选择在不同的维度去 Scale。石建平指出这是一个非常有争议的视角。“一方面,我们说中国缺少原创,另一方面,我们跟随别人后面。作为投资人和创业者,我们需要有勇气去赌未来有新的机会。虽然不是任何团队都有可能做出全球性的创新,但是当我们看到这样的机会和团队时,我们应该有勇气去赌。否则,我们将永远失去创新的基础。只做 APP 是不够的,我们需要底层的创新。”石建平认为行业里有很多人在做应用,做 SFT(Supervised Fine-Tun-ing 监督微调),做更深度的调整,解决行业应用场景等问题,这很好。同时,他鼓励有更大梦想的团队能够聚集大量资金去做更 AGI 的底层基础模型,进行更好的创新。综合来看,中美在 AI 大模型领域存在多方面差距,但中国展现出强烈的信心与决心。面对现状,中国需认识到差距,同时发掘自身优势和机遇。利用算法开源,通过深化应用场景、开发数据集和端侧创新,中国有望实现快速发展。此外,原创性技术创新对长期领先地位至关重要,投资人和从业者在此过程中扮演关键角色,需支持创新并具备战略眼光,助力中国在全球科技竞赛中领先。扫码分享文章-46-大模型领航者AIGC 实践案例集锦应用案例CASES-47-对话先行者洞见新未来第一章:互联网产品演 讲|郭伟东,腾讯 QQ 浏览器专家研究员编 辑|李忠良,InfoQ 编辑随着人工智能技术的飞速发展,大型语言模型已成为行业热点,引领着一系列技术创新。在长文档阅读场景下,利用大模型提升阅读效率也是业界重点探索的方向。为深入了解相关技术并分享前沿实践,我们在 QCon 全球软件开发大会上邀请了腾讯 QQ 浏览器的专家研究员郭伟东。他为我们揭示了大模型背后的技术细节,展示其在一款亿级产品中的应用案例。本文根据演讲整理,希望对你有所帮助。如何 1 秒内快速总结 100 多页文档?QQ 浏览器首次揭秘大模型实现技术细节“-48-大模型领航者AIGC 实践案例集锦QQ 浏览器是一个月活跃用户超过 4 亿的综合信息平台,旨在满足用户在搜、刷、用、看四个场景下的需求。其中用是指 QQ 浏览器里工具的使用,也称为帮小忙,QQ 浏览器包含了众多实用工具,帮助用户提高工作和学习效率。今天我们讨论的文档阅读助手就是 帮小忙 中的一个工具。-49-对话先行者洞见新未来长内容消费一直是用户非常重要的诉求,如何帮助用户快速了解长内容中的关键信息,也一直是各产品努力的方向,如网页速览、电影速看和小说速读等。但是它们普遍存在一个问题:当用户想要深入了解内容时,由于缺乏交互能力和实时更新能力,往往无法满足需求,所以是一种被动式的信息获取方式。正因如此,QQ 浏览器做了一款产品:文档阅读助手,可以让用户更加自由,更加自主地获取信息。同时秉承腾讯“科技向善”的理念,也会推出关怀模式和无障碍模式,让每个人的阅读都更简单。-50-大模型领航者AIGC 实践案例集锦探索巨变:大模型技术的历史与进程语言模型的发展始于 20 世纪 80 年代,最初基于统计方法,主要计算词汇在语料库中的概率。这一阶段,由于词汇量巨大,尤其是对于中文,需要处理庞大的统计空间,特别是多个词连续出现的概率。第二阶段起始于 2003 年,Bingo 把神经网络引入到 NLP 领域,在 2013 年以 Word2Vec 模型推向高峰。主要特点是为每个词汇分配一个固定的向量表达(embedding),克服了以往统计方法的不足。但这种方法也存在问题,同一个词只有一个向量表示,对于多义词并不能区分,如“Bank”在“河岸”和“银行”不同的语义下,对应的 embedding 相同。第三阶段以 BERT 为代表,主要做上下文相关的嵌入向量,允许相同的词在不同上下文中具有不同的表达,从而显著提高了模型的迁移性,NLP 的学习范式也由 end2end 方式变为预训练 业务微调的方式。-51-对话先行者洞见新未来最后,是大语言模型阶段。2017 年,谷歌发布了具有里程碑意义的 Attention is All You Need论文,介绍了 Transformer 模型。此后,几乎所有的大语言模型都基于 Transformer 结构。从 2018 年到 2020 年,大语言模型领域的探索期。尽管 Transformer 架构已成为统一标准,但其包含的 Encoder 和 Decoder 两个关键部分被不同研究者以不同方式探索。例如,OpenAI 的 GPT 系列是典型的 Decoder Only 模型,专注于自然语言生成任务;而谷歌的 BERT 模型则作为双向语言模型主要使用 Encoder 部分,专注于自然语言理解任务。这一时期,研究者们大量对 BERT 进行改进和变体研究。到 2019 年,谷歌推出了 T5 架构,旨在将理解和生成统一到一个框架下。现在来看,GPT 系列成为了大家普遍的模型结构。但是当时虽然出现了参数规模巨大的模型如 GPT-3,这些模型在生成能力上非常强大,但是对于指令的理解并不好。2021 年,谷歌推出 FLAN 模型,并引入了指令微调(Instruct Tuning)技术,极大地增强了模型对具体指令的理解和执行能力。到了 2022 年,模型发展进一步加速,OpenAI 提出 InstructGPT,不仅整合了指令微调技术,还引入了强化学习,使模型产出的答案更加符合人类的预期。直到 2022 年底,OpenAI 推出 ChatGPT 产品,全世界都为之振奋。大语言模型主要通过提示工程和定制化模型两种方法来支持业务。提示工程通过调整模型的输入指令(Prompt)以-52-大模型领航者AIGC 实践案例集锦获得期望的输出格式和内容。例如,在生成问题时,可以通过精心设计的提示来引导模型产生更为结构化的内容。这种方法的优点在于不需要重新训练模型,仅通过修改输入指令即可快速适应各种业务场景,但它要求模型本身具有很全面的能力,模型往往比较大,对应的推理成本会比较高。另一种方式是定制化模型。通过在特定业务数据上进行微调来优化大语言模型,使其更贴合业务场景。比如,针对数学场景,可以用数学数据集上进行微调以确保模型按需提供准确解答。这样的模型更专注于特定任务,可以允许更小的规模和降低推理成本。QQ 浏览器文档阅读助手就是在腾讯混元模型的基础上定制化得到的业务大模型。腾讯混元大模型是全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超 2 万亿 tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。为了更匹配应用场景的需求,腾讯也推出千亿、百亿以及十亿等不同尺寸的大模型。目前,腾讯内部已有超过 300 项业务和应用场景接入腾讯混元大模型内测,包括 QQ 浏览器、腾讯会议、腾讯文档、企业微信、腾讯广告和微信搜一搜等。-53-对话先行者洞见新未来QQ 浏览器文档阅读助手技术方案要进行全文总结,先要阅读并理解原文,然后提取关键信息并进行概括。许多用户上传的 PDF 文件都很长。而现有的主流开源模型支持的上下文长度为 4000 Token 或更少,这意味着它们不能一次性处理过长的文章。全文总结图 1:用户 PDF 长度分布-54-大模型领航者AIGC 实践案例集锦为了达到这一目标,有两种主要方法可以用来扩展上下文长度:第一种是在训练阶段使用更长的上下文,但这会导致显著的显存和算力消耗增加,因为 Transformer 架构的显存需求与支持的长度平方成正比;第二种是推理时通过某种方式扩展上下文长度,比如插值,但是扩展的范围有限。虽然这些方法确实能在一定程度上扩展上下文长度,但它们都有局限性,要么是成本过高,要么是扩展长度有限。因此,可以用以下几种方案,解决长文章摘要的问题:第一种方案,不管文章多长,只取前 K 个 Token 供模型处理,然后生成摘要,但会丢失部分文章信息;第二种,称为 MapReduce 的方法。先把文章分成 N 个片段,然后将每个片段分别输入模型,分别得到每部分的摘要。然后,将这 N 个摘要片段合并,形成一个新的文档,再次调用大语言模型进行最终总结。这个方案会多次调用大型语言模型,导致较高的成本和较长的处理时间。此外,由于语言模型生成的段落摘要可能存在不准确的情况,因此在最终全文总结中可能会累计错误。为了解决这些问题,我们采用了一种结合抽取式和生成式的方法。首先,我们在文章中识别并抽取出最重要的句子,然后使用大语言模型对这些抽取的句子进行概括和总结。方法只调用一次大语言模型,耗时较少,并且不容易遗漏重要信息。在实际测试中,这种方法用户满意度最高,而且事实一致性也最低。为了提升用户获取信息的效率,产品会推荐一些用户可能问的问题,最直接的方法就是 LLM 利用原文信息生成一些问题。但是这种方法生成的问题通常都是非常简单的,与原文表达方式高度一致。以腾讯第三季度的财报为例,原文提到“第三季度问题生成-55-对话先行者洞见新未来真实的用户也会提出复杂的问题。例如,用户可能会问“从腾讯的财报中,我们能看出什么样的战略布局?”。2023 年,微软发布了一篇关于“进化学习”的论文 WizardLM,主要通过广度进化和深度进化让 SFT 数据更加丰富,复杂度也更高,从而提升模型效果。图 2 展示了随着迭代次数增加,问题长度的变化,可以看出问题复杂度随着进化轮数增多而增加。但问题的可用性却在持续下降,到了第五轮时,可用性已经下降至 85%以下。针对上述问题,我们提出了一套新的进化算法杂交进化,如图 4 示例所示:“小明是一个爱读书的人,他有一定的读书效率;小红则是一个爱写作的人,她有一定的写作速度”。杂交进化算法中,结合这两个种子的特点,能够生成一个更加复杂的问题,使得原本两个简单的问题被转化成了一个更加复杂的问题。腾讯的总收入是多少元”,而生成的问题通常会直接是“第三季度腾讯的总收入是多少元?”。但是,实际上用户可能会用更口语化的方式表达,比如说“腾讯赚了多少钱?”。图 2:WizardLM 不同轮次的进化问题长度图 3:WizardLM 不同轮次的训练样本可用率图 4:杂交进化示例图-56-大模型领航者AIGC 实践案例集锦与 WizardLM 相比,杂交进化方法有以下几个显著特点。首先是生成效率更高。WizardLM 方法如果总的种子数量是 n,每一轮进化生成新的 n 个样本,经过五轮后,总共只能新增 5n 个样本。而杂交进化,通过两个种子样本生成一个新的样本,增加效率是 n 乘以 n-1,所以当种子样本数量较多时,生产效率远超过微软的方法,并且杂交只需要进化一轮,准确率也更高。其次,在样本的主题分布上,生成的样本(红色部分)相较于种子样本(蓝色部分)主题更加多样,对于大模型的训练帮助更大,更详细的细节可以参考我们的论文。通过对用户真实问题的统计分析,我们发现用户问题主要分为四类:原文中有答案的问题(Close QA)原文中没有但互联网上有答案的问题(Open QA)智能问答-57-对话先行者洞见新未来 原文和网页中都没有答案,但基于基础信息可以深加工得到答案的问题(Agent QA)依赖大模型通用能力的问题最后一类问题混元模型本身可以解决很好,因此这里不需要特殊处理。对于原文中有答案的问题,关键是通过检索系统找到与该问题相关的文本。根据用户问题检索相关文本之前需要对问题进行改写。因为在多轮对话中,用户常常会省略一些词汇,所以先对问题进行改写,然后再检索。我们尝试了三种检索方法。首先是双塔架构,但在我们的场景下并不理想,召回率大约在 80%左右。主要是原文片段经过 Pooling 方法进行语义压缩,导致相关文本片段的语义被稀释。如:一段 500 字的文本可能只有 50 字与问题直接相关,pooling 后的语义会稀释掉 50 字的语义,导致召回不足。-58-大模型领航者AIGC 实践案例集锦因此,我们尝试了第二种架构,保留了 500 字每一个词的向量表示,并计算与问题中每一个词的相似度。通过取片段的最大相似度作为整个文本片段的相似度,这样虽然效率有所下降,但准确率有显著提升,在业务数据集中,效果超过 text-embedding-ada-002。最后一种情况,针对答案分布在不同的文本片段的情况,做了进一步的改进,效果也得到了进一步的提升。Open QA 与 Close QA 的主要区别在于原文中没有问题答案,但是互联网上有相关信息,可以通过 QQ 浏览器的搜索引擎提供相关网页,然后通过大型语言模型输出答案。Agent QA 系统是解决原文和搜索引擎都无法提供答案时,大型语言模型将复杂任务分解成若干小步骤,然后分而治之。如:用户想要了解腾讯流动利率时,LLM 会进行如下分解:首先,搜索流动利率的计算方法,即流动资产除以流动负债;然后,找出具体的流动资产和流动负债的数值;最后,使用计算器计算出流动利率。这种方法听起来很好,但是存在一个问题,在专业领域,大型语言模型通常会泛泛而谈,模型往往无法规划出具体的执行步骤。为了解决这个问题,我们提出了一种新的解决方案:语言模型 专家知识库。假设有一个专业问题关于“公司是否存在非法占用现金的情况”,大模型并不能做任务拆解,可以在知识库中检索到最相关的规划,然后让大型语言模型参考这个规划完成任务。实验显示,专家知识库可以显著提升专业领域问题的效果。-59-对话先行者洞见新未来LLM 回复非常灵活,自动化评估是加速模型迭代效率的重要部分。以摘要功能为例,一种常用的方法是将完整文章和生成的摘要输入到大语言模型中,让 LLM 判断摘要的质量。然而,这个方法的挑战在于,原文常含有大量无关信息,这可能导致模型错误地判断摘要是否准确反映了原文的主旨,详见参考文献。第二种评估方法可以参考 TACL 的一篇论文。这个方法通过比较每个生成的摘要句子与原文中的句子是否相似来判断摘要是否产生幻觉。如果所有句子都足够相似,就认为摘要没有产生幻觉。但是,因为摘要通常是多个句子的汇总,当遇到融合性或概括性句子时,这个方法就不再有效,详见参考文献。为了克服这一限制,我们采用了检索增强型方法,将精准问答的思想应用于自动评估。结果显示,在公开的摘要生成数据集上,我们的方法的问题可用率是最高的,达到了业界领先水平。优化实践:高效模型迭代加速策略-60-大模型领航者AIGC 实践案例集锦在训练过程中提升收敛速度也是一个加速模型迭代的重要方法。训练过程中,每个批次可能包含不同长度的样本,常规用 padding 的方法会浪费算力。我们采用了 Packing 策略,将多个短样本拼接在一起,以减少无效的填充部分,使得每个批次的计算更加高效。实验表明,在达到相同训练效果的情况下,Packing 训练时长约 Padding 方式的 64.1%。因此,Packing 策略大大提高了训练的效率和模型的收敛速度。扫码分享文章-61-对话先行者洞见新未来演 讲|韩艾,京东集团算法总监、京东零售数据与算法通道委员编 辑|褚杏娟,InfoQ 编辑 傅宇琪,InfoQ 见习编辑电商助手是一款集合了多种电商经营决策功能的工具软件,旨在帮助电商从业者完成从商品发布到订单管理、客服沟通、数据分析等一系列电商运营任务。京东零售基于 Multi-Agents 理念搭建了商家助手大模型在线推理服务架构,这一系统的核心是算法层基于 ReAct 范式定制多个 LLM AI Agents,每个 Agent 都有专门业务角色和服务功能,可以调用不同的工具或多 Agent 协同工作来解决相应的问题。在 QCon 北京 2024 大会上,京东集团算法总监、京东零售数据与算法通道委员韩艾,根据自己和团队在京东的技术实践经历,发表了题为京东商家智能助手:AI 多智能体系统在电商垂域的探索与创新的演讲,她阐述了 Multi-Agents 如何模拟真实的商家经营,并介绍 ReAct 范式的 Multi-Agent 在线推理架构,以及 Agent 落地垂域的样本、训练与评估监控的方法。本文由 InfoQ 整理,经韩艾老师授权发布。以下为演讲实录。京东商家智能助手:Multi-Agents 在电商垂域的探索与创新“-62-大模型领航者AIGC 实践案例集锦现实中,商家如何进行经营决策Agent 需要模拟人类的决策过程,因此需要先了解现实中的经营是如何进行的。通常,平台向商家传递各种各样的信息,包括新的玩法、新的规则条款,以及可能的惩罚通知等。面对平台的各种消息和随之而来的疑问,商家需要一个经营助手协助,他通常扮演着一个专门提供平台知识百科的咨询顾问角色。当商家提出赔付、运费等与业务相关的复杂问题,需要先理解需求,然后从长篇的业务文本中抽取出问题解决的大方向或目标。定位问题后,形成逐步的解题思路,再灵活调用各种资源和工具来解决问题,其中包括调用知识库、进行搜索和检索,以及使用人脑进行总结和筛选重点内容。经过这一系列操作后将问题的最终答案返还给商家。那么如何将现实空间的平台咨询顾问映射到 Agent?顾问这个角色是我抽象出来的,京东实际上并没有这样的角色。对于商家来说,每天提供专属服务的实际上是我的许多同事,包括在线客服、业务运营人员以及产品经理,他们解答各种问题。那是否需要为每个岗位角色构建一个 Agent?解决这个问题时,我们还要回到应用场景,从商家的需求出发:无论谁在回答问题,对商家来说都只有一个人帮助他们解答问题。因此,构建一个 Agent 即可,它映射到为商家提供专属咨询服务的多个业务岗位的人。构建这样一个 AI 版的 Agent 对商家和平台都有好处。对商家而言,他们将体验到一个永远在线的百科全书,能够突破时间、体力和知识掌握的极限。对平台来说,可以降低成本。除了上面单一的 agent 提供专属服务的情况,当我们讨论到多领域助手与商家的经营协作时,整个团队是如何协作经营的呢?比如,商家提出了一个问题:“最近我的店铺经营得怎么样?”这个问题看似简单,但实际上是商家每天在处理完各种信息后首先会思考的。对于现代电商商家来说,了解经营状况通常从查看数据开始,然后才能评估经营状况。他不会直接去系统读取数据或编写数据库查询语言,而是直接“调度”数据分析师这一角色,因为商家清楚自己的目标是数据相关的服务。于是,他将任务分配给团队中的数据分析专家,这位专家经过一系列操作后,会返回给商家一份数据报告。接下来,商家需要阅读并理解这份数据报告,他可能会发现新用户的留存率不佳的问题。这时,商家会根据新发现的问题更新决策。商家的上述过程是 agent ReAct 范式的一个典型例子,即基于观察(observation)来更新整个推理(reasoning)过程。在解决问题的思路上,-63-对话先行者洞见新未来人类和 Agent 非常相似。接下来,更新的决策就是商家重新选择一个角色,比如用户研究专家,来分析新用户的偏好,解决新用户的留存率不佳的问题。这样的“拿到结果更新决策-调度新的专业角色-输出结果”会不断循环往复。一个经营诊断与优化的问题,电商商家团队的成员要懂得数据分析、平台知识、用户研究、商品选品、定价、营销投放,还需要有人掌握制作图片和音视频素材的技能,以及完成所有操作和客户售后运营。而商家自己,需要清楚地了解每个团队成员的专长(profile),以便在更新决策时知道如何调度这些资源。此外,商家还需要能够理解每个专家返回的结果,这对商家来说也不是件容易的事情。当商家发展到一定阶段,他们通常会聘请一个“最强大脑”来代理所有这些调度工作。这个“最强大脑”可以被理解为一个“总管”。有了总管,所有的调度工作都由总管代理完成,而商家只需要与总管沟通即可。这样的协作模式可以极大地提高商家的经营效率。商家想要完成一个经营诊断,他只需向总管提出:“帮我看看最近经营得怎么样?”然后他就可以耐心等待。总管在接到任务后,会进行一系列的操作,最终给出结论:“你最近新客户的留存情况不太好,我这里有一些商品营销创意的建议,你看看是否采纳。”相关的专家们的输出材料会作为附件提供给商家。从单一个体到各个专业领域的专家团队,再到基础的执行工具,共同帮助商家完成了一个决策过程。在当前的团队配置中,可以关注三类主要角色:领域专家:以咨询顾问为代表,这类角色不仅具备决策能力,还能够调度工具。在 AI 空间中,他映射我们的 Agent。工具:这类角色不具备决策能力,只能执行任务。在 AI 世界中,映射为软件系统中已有的多种原子服务能力接口 API。总管:作为整个决策发起的引擎,总管不需要在某一领域深耕,但必须具备通用的电商知识,了解如何经营业务。在面对问题时,总管能知道如何发起调度,负责整体的专业服务流程编排,在 AI 空间中,他映射我们最强的 Agent。构建 AI 版的商家经营团队商家经营团队的运作模式为我们提供了 AI Agent 的现实版样例。现在来到 AI 空间,请出我们的商家智能助手,我们暂且称呼它为 Mario X。将现实空间的团队映射到 AI 空间,我们用大量-64-大模型领航者AIGC 实践案例集锦Transformers 和研发代码构建了一个 AI 版的商家经营团队:一个由 Master Agent(主代理)领导的多领域 Agents 团队,团队同时掌控着一系列原子能力工具 API。这样的 AI 团队带来了多方面的好处:1.体验提升:商家可以享受到 7*24 小时的在线服务。2.效率提高:商家不再需要学习使用各种工具和专业知识,只需用他们最熟悉的经营语言与 Master Agent 沟通,即可直接享受系统提供的各种服务。3.决策质量提升:由于有大量的备选方案可供选择,商家的决策效率和质量自然会提高。4.成本节约:商家可以减少人力和时间的投入,平台也可以减少不必要的运营开支,让我们的业务人员从繁琐的问答中解放出来。构建 ReAct Agent 时,每个 Agent 会经历一个 inner loop,这个内部循环称为 reasoning(推理),它对应于我们之前讨论的思维过程,即生成解题思路和大目标的步骤。reasoning 过程包含两个主要部分:Thought(思考):我将其定义为用人类自然语言描述的解题决策思路。但是,为了调度系统工具,LLM 需要发出指令,因此需要将这种人类语言翻译成系统能解析的研发语言(即下面的 action code)。生成 Action Code(动作代码):基于生成的 Thought,Agent 会继续生成 Action Code。这个 Code 不直接执行 Action,而是执行 action 的指令。Action Code 是基于 Thought 解析出来的,因为 Thought 是拆分多步骤的解题思路,所以 Action Code 是对应的一系列任务。每个任务的定义可能非常复杂,提取 JSON 中的一些简单字段来说明:调度对象:告诉系统你要调度的工具是谁,比如 Master Agent 可能会调度其他 Agents 或 API。输入信息:提供给调度对象的信息,即函数的输入参数。Job Description:如果调度的是 Agent,需要让 Agent 明白分配给它的任务是什么,类似于工作描述。Trust_Mode:这是考虑性能和 Agent 质量的一个字段,它决定了 Agent 在接收到工具返回的 observation(观察结果)后,是再次进行 reasoning 还是直接输出结果。Action Code 是服务端可解析的代码,它会与环ReAct Agent 构建-65-对话先行者洞见新未来境中广义的 Agents API 和 Tools 进行交互并执行代码。当这些工具完成工作并将 observation 返 回 给 Agent 时,Agent 将 进 行 下 一 轮 的 reasoning。这个过程会一直持续,直到 Agent 生成了一个 Trust_Mode 变为 1 的输出,这意味着 Agent 认为所有的推理和调度都已完成,可以将结果推送给用户。打开 Mario X 首先会与商家打招呼。第一轮商家提问:“在京东开店需要交多少保证金?”时,用户和 Master Agent 之间建立了联系,它会再从 Memory 中获取与用户相关的近期和远期特征。接下来,Master agent 开始内部推理。在这个阶段,Master agent 的 LLM 理解商家提出的问题,但意识到缺少必要的条件,因此无法直接派发任务。LLM 需要向商家追问一个条件,因为保证金与商家经营的类目密切相关。这时,它会调用一个名为 Echo 的工具,Echo 的作用仅仅是将信息传递给用户,不做任何处理。此时 Master agent 将 Trust_Mode 设置为 1,因为 Echo 的任务是单向传递信息,不需要再返回给 LLM 进行推理。Action Code 开始执行,Echo API 被唤起,将问题传回给用户,同时将上下文信息推送给 Memory。第二轮,商家回答说他卖花,这时用户的信息再次流向 Agent,LLM 根据商家提供的信息和 Memory,生成解答思路在 Thought 中。LLM 知道现在需要调度的对象是 Consulting Advisor,即前面提到的平台咨询顾问 Agent 版。LLM 向 Advisor 传递了一个 Job Description,因为 Advisor 是一个 Agent,需要与之沟通并分配任务。Agent 之间的通信协议也是基于 Action Code,告知 Advisor 商家需要查询的类目对应的入住保证金费用。此时 Trust_Mode 设置为 1,意味着 Advisor 完成任务后不需要再返回给 LLM,因为 LLM 信任 Advisor 专门执行此类咨询任务。这是出于性能考虑,避免让用户等待过久。随后,Advisor Agent 执行任务并返回输出,同时更新 Memory。最终,Master agent 回答用户的问题。第三轮,当客户提出为花店起名时,Master Agent 的 LLM 识别出这是一个明确的问题。为了解决这个问题,将会进行 3 轮 ReAct。第一轮:不需要调用其他 Agents,而是直接调用一个特定的 API 会更加高效。它调用的是一个名为“Shop Name Generator”的 API,这是一个基于大语言模型的起名工具,它需要接收的输入参数是店铺的类目信息。他从 Memory 中提取了之前 Advisor Agent 提供的信息,即商家经营的是“生活鲜花”,并将这个信息作为参数传递给 Shop Name Generator。在这一步,Trust_Mode 为 0,这意味着 API 生成的店铺名字将返回给 Master Agent 做其他的推理,而不是直接输出给用户。我们回Multi-Agent 的工作流程-66-大模型领航者AIGC 实践案例集锦到了 ReAct 流程中,API 输出了一系列的店铺名字,但用户此时还不会看到任何输出的结果。所有这些步骤完成后,相关信息都会被推入 Memory,这就是 Multi-Agent 工作架构的一个例子。对于普通的 Agent 与 Master Agent 的区别在于,Master Agent 直接与用户交互,而普通 Agent 则接收来自 Master Agent 的 Action Code,这些 Action Code 转化为服务层协议,作为它们的输入参数。Multi-agent 架构采用分层次的方法,将一个大模型的复杂生成任务,拆解成了多个层级化的下一步文本预测。这样,每个模型需要处理的推理难度就相对较小,因此模型的规模不需要很大,从而减少了训练和部署的计算资源消耗,并且可以快速迭代。同时,也可方便灵活地接入各种资源方,比如营销的 Agent,我们可以迅速地将其整合进我们的系统中。这种架构也有一些潜在问题。首先,可能导致风险的累积。如果 Master Agent 出错,那么整个任务的结果可能就会受到影响。因此,我们实施了全链路监控,以确保系统的稳定性和可靠性。此外,由于可能需要经过多个 LLM 生成步骤,响应时间有时可能会较长。此外,商家面临的问题通常涉及工具操作,这些问题都需要结合具体的业务情境来解决。因此,对于我们的 Agent 来说,它们也需要“死记硬背”所有 Tools 的能力。目前,我们正在进行的工作包括在整个推理流程的多个环节中整合 Retrieval(检索)过程。例如在生成 Thought 之后,Agent 可以暂停并调用检索工具或 Agent,等待 Observation 返回后再明确调用哪个 Tools,然后生成 Action Code。这意味着 Thought 和 Action 可以分两轮生成,这是我们正在努力实现的一些改进。分层次架构构建 AI 版的商家经营团队今年 2 月份,我们推出了一个专门处理招商入驻问题的 Agent,并将其部署在京东的招商站点上。这个 Agent 帮助许多商家解答了他们关于入驻的相关问题和操作步骤。目前,这个全新的 muiti-67-对话先行者洞见新未来Agent 架构助手产品已经在京东商家端进行灰度测试阶段。技术上,我们目前的系统能够解决商家经营场景中的一些确定性输出问题。所谓确定性输出,是指商家面临的一些答案明确的问题,比如关于平台规则的疑问或具体的操作步骤等,这些问题相对基础,并不包括那些开放式的问题,比如“告诉我如何做好生意”。我们在建设一个能够真正帮助商家做生意的靠谱助手,搭建完整 AI agent 经营团队。这个系统将涉及非常广泛的知识领域,处理的问题也不会有确定的答案,可能需要引入强化学习等更先进的技术来解决。在解决相对确定性输出的问题时,我们的核心工作在于构建垂直领域的知识。这意味着将人类专家的知识传授给系统,特别是针对商家领域的知识。对于这类问题,通常使用标准的 SFT 加上一些预训练模型基本上就足够了。如何构建样本?鉴于我们先解决比较确定性的问题,我们可以从在线客服、运营和产品的回复,以及商家满意度收集的接口等获得真实的数据,然后对这些数据进行清洗。接着,研发团队会根据系统的调用路径构建一个全面的路径树。最后,业务人员将构造一些剧本,描述可能的问答场景。将这两部分结合起来,我们就得到 SFT 样本 的基础池。接下来,对基础池进行丰富度扩充。其中最主要的是对问题(Q)的扩充。有了问题和答案(A),以及调用路径,我们接下来需要生成中间的标签(label)即 thought 和 action code,这就需要依赖先验的知识库。此外,还需要研发的配合,他们需要按照标准来注册 API。因为工具的调用靠注册信息的质量,如果两个不同的工具,它们的描述写成一样的,那么我们的大模型也无能为力,因为它只能通过工具的自我介绍来选择工具来执行任务。因此,知识的准确性非常重要。复杂输入的问题,不像简单输入那样直接。解决这类问题,关键在于遵循 Agent 推理的流程:先生成 Thought,再解析 Action Code。因此,生成一个强大的 Thought 变得非常重要。下面看一个复杂输入下,确定性输出的例子,我们来对比单纯用 RAG 和用 LLM agent 解题的效果,比较一下有和没有好的 Thought 的区别。ReAct SFT:垂域样本构建复杂输入下的 Thought 生成-68-大模型领航者AIGC 实践案例集锦(1)RAG 解题例如,用户提出了一个问题:“在京东卖红酒要多少钱?”如果直接使用 Retrieval(检索增强)来解决问题,按照经典的方式,先进行 Query(查询)并计算 Similarity(相似度),然后召回一些文本。在召回的文本中,可能会看到白酒、黄酒等,但实际上并没有答案,因为红酒这个类目在我们的知识库中并不存在,它不是开店保证金的一个选项。基于错误的信息片段,再加上用户模糊的问题,即使是非常强大的 Summary Model(总结模型)也无法给出正确的答案。要解决这个问题,我们需要让模型理解红酒实际上与哪些类目是有关联的。这就需要模型不仅要有检索能力,还要有推理和关联的能力,以便正确地将问题与相关的知识库内容关联起来,从而提供准确的答案。(2)LLM Agent 解题助手中的 Advisor 在经过训练后,会以特定的方式解题。还是开始于 Master Agent 与用户的对话。Master Agent 并不直接理解这个问题,而是将用户的询问,例如“京东红酒入住资费是多 少?”通 过 Action Code 传 递 给 Advisor。Action Code 中的 Job Description 是“请回答京东红酒入住资费”。Advisor 在处理这个查询时,首先理解红酒实际上属于葡萄酒这一类别。因此,Advisor 的 Thought 中生成出应该查询的是葡萄酒类目的入住资费,并确定了使用哪些关键词来传给调度的检索 API 做关键入参。在生成 Action Code 时,Advisor 会传递给检索 API 这个关键入参,即 Search Query“葡萄酒保证金”。这个参数不再是用户的原始问题,而是根据 Advisor 的推理进行了调整。API 本身没有决策能力,但由于 Agent 具有推理能力,它能确保传递给工具的输入是正确的,从而用正确的参数唤起正确的工具。在第二个任务中,Summary API 接收到一个关键的输入参数,称为 Thought for Answer,即回答思路。这个思路是 Advisor 在推理过程中在 thought 生成的关于红酒与葡萄酒类目关系的理解。Advisor 告诉用户红酒和葡萄酒之间的关系,并按照葡萄酒类目的答案来回答用户的问题。接下来,advisor 继续遵循经典的 RAG 流程。此时,Search Query 变为“葡萄酒保证金”。虽然召回的葡萄酒与原始问题的“红酒”相似性不高,但由于顾问使用了“葡萄酒”和“保证金”作为搜索关键词,并将回答问题的思路作为 Prompt 的一部分传递给总结 API,API 就能够根据 Advisor 提供的推理思路,正确地回答关于红酒保证金的问题,即通过查看葡萄酒的保证金来得知红酒的保证金情况。-69-对话先行者洞见新未来在复杂输入的情况下,训练出能够准确生成 Thought 的模型是关键。由于这类问题的答案并不直接存储在知识库中,我们需要从算法层面进行构建。我们的方法是分析 Bad case(不良案例),从中发现问题并拓展解题思路。当遇到一个新案例时,我们会与业务团队沟通,以获取新的知识点,并按照既定的模式进行预先处理。理解不同类目之间的关系是解决相关问题的关键。因此,我们为模型提供了大量类似的文本进行预训练(pretrain)。在自监督学习阶段,模型学习了与业务相关的各种关键词、相似词以及它们与类目的关系。这样,当模型遇到葡萄酒相关的问题时,它已经通过预训练了解了如何处理这类问题。随后,我们对模型进行标准的 SFT,在这个阶段,模型会学习到具体的知识点,比如葡萄酒的相关信息。模型已经知道如何回答关于葡萄酒的问题,并且通过训练了解了葡萄酒与其他类目的关系。当用户询问关于红酒保证金的问题时,模型能够通过分析和推理,提供准确的答案。通过这种方式,我们可以训练出能够处理复杂输入并生成有效 Thought 的模型,这些模型能够更好地理解和解决商家面临的实际问题。为了定位 Bad Case,我们实施了全链路 ReAct 监控。具体来说,我们会收集在线推理生成的 Thought、Action Code 和 Observation,然后通过人工打标 大模型来进行评估。评估函数会将人工打标的输出与 Agent 生成的输出进行比较,以确定两者之间的差异。这个评估与 Agent 的具体定义紧密相关,因为不同的 Agent 可能有不同的评估标准。评估主要基于三个结果:Thought、Action Code 和 Observation。值得注意的是,Observation 虽然是作为下一轮推理的输入,但它本身并不是由 LLM 生成的,它的质量会影响下一轮的 Thought 生成。对于 Observation 的评估可能包括预测销量的准确性或用户对生成图像的满意度等,这些指标并不完全由 LLM 控制,因此 Observation 的评估也与服务的业务指标相关。基于这些评估结果,我们会有一个流程来决定 Agent 的表现。如果 Agent 在第一轮的 ReAct 得分很低,我们会继续累积这个分数,但如果得分低于某个阈值,我们将停止后续的推理,并且该 Agent 将不再参与后续得分的累加,意味着它已经退出了推理过程。如果 Agent 的得分符合要求,我们会检查是否为最后一轮推理。如果不是最后一轮,Agent 将更新后进入下一轮评估。如复杂输入下的 Thought 训练全链路 ReAct 监控-70-大模型领航者AIGC 实践案例集锦果是最后一轮,将触发结束流程。在多轮推理和评估后,当触发结束评估时,我们会得到一个全链路累积的 ReAct 得分。这个推理过程是链式的,涉及到递减的折扣因子 和,这些因子会影响 Agent 的 ReAct 得分和整体得分。我们的评价核心在于能够快速定位问题节点,这是由我们的架构决定的,必须通过这种方式来尽早发现并解决问题,防止问题在推理过程中蔓延。展望我们需要帮助商家更好地经营生意。尽管在平台上有许多类似参谋的工具,比如供应链管理、选品、定价等,但目前还没有一种方式能够让商家根据自己的业务思路,按照黄金流程组合使用这些工具。无论是问答数据、沟通数据还是交互数据,这些都需要我们去收集和整合。我们需要将人们做生意的思维方式从人脑中提取出来,这包括训练大型模型来寻找和学习人类专家的知识。此外,我们还需要引入强化学习。因为对于商家提出的复杂问题,如“我的生意做得怎么样?”可能存在多种解决方案,每个团队的解法可能都不同。要判断哪一个更好,可能需要每个做生意的人根据自己的打分逻辑来评估,同时还需要在市场反馈中验证。扫码分享文章-71-对话先行者洞见新未来第二章:企业生产提效演 讲|刘夏,字节跳动产品研发和工程架构部代码智能助手架构师编 辑|高玉娴,InfoQ 数字化主编大语言模型在代码生成领域取得了令人瞩目的进展。本文整理自字节跳动产品研发和工程架构部的代码智能助手架构师刘夏在 AICon 2024 北京 的演讲代码生成 Copilot 产品的应用和演进,聚焦基于大语言模型的代码生成技术,深入探讨了代码补全和代码编辑这两种典型的应用形态。同时,还分析了当前代码补全面临的挑战和局限性,阐述了代码编辑是如何在交互和构建方法上实现创新。内容经 InfoQ 进行不改变原意的编辑。字节跳动代码生成 Copilot 产品的应用和演进“-72-大模型领航者AIGC 实践案例集锦代码生成 Copilot 产品回顾首先,回顾一下代码生成 Copilot 这种产品形式。当我们谈论代码生成 Copilot 或者 Copilot 这个词时,不得不提到 GitHub 在 2021 年 6 月推出的 GitHub Copilot。这个产品不仅拥有一个响亮的名字,而且定义了一种新的 AI 产品的范式。GitHub Copilot 在 2021 年 6 月推出了技术预览版,随着不断的迭代,其效果令人印象深刻,使人们意识到将大语言模型应用于代码生成领域具有巨大的潜力。业界也开始迅速构建类似的产品,无论是在模型还是产品上都取得了快速的迭代。这里有一个关键问题:为什么是 GitHub Copilot 引爆了这个热点?实际上,将自然语言处理(NLP)技术应用于代码生成并不是一个新概念,例如 TabNine 这样的产品在 GPT-2 时代就已经将其应用于代码补全。那么,GitHub Copilot 究竟有何特别之处呢?我们想要从几个方面和维度来探讨这个问题。首先,我想提到团队,GitHub Next 是这个产品的孵化团队。GitHub Next 是一个具有研究属性的团队,他们的任务是探索未来软件开发的新方式。如果访问他们的官网,你会发现许多有趣的项目,其中就包括 Copilot。团队主要由程序分析师、软件工程师以及研究员组成,他们持续关注的一个重要话题是如何实现通用的代码生成。接下来,我想谈谈一个重要的契机,那就是 2020 年 6 月 GPT-3 的问世。由于 GitHub 现在是微软的子公司,而微软与 OpenAI 有着深入的合作,GitHub 团队很早就获得了 GPT-3 的预览版,并对其能力感到非常兴奋。他们认为必须利用 GPT-3 在代码生成领域做出一些创新,因此与 OpenAI 紧密合作,基于 GPT-3 迭代开发出了专门用于代码的大型语言模型 Codex。随后,他们对 Codex 进行了持续的微调训练,打造了专属的模型。一个强大且优秀的基础模型实际上决定了产品的上限,因此 GPT-3 的出现对这款产品的贡献是巨大的。有了模型之后,团队开始思考应该开发什么样的产品形态。根据 GitHub 的分享,他们最初的想法是开发一款 Chatbot,即一款能够解答编码过程中遇到的任何问题并提供代码的对话聊天产品。但他们很快发现,尽管知识库中大部分问题都能得到回答,但只有大约 20%的回答是正确且被接受的。尤其是在 GPT-3 时期,ChatGPT 还要两年后才出现,他们意识到这种 Chatbot 产品的效果并不理想。如果大部分时候给出的答案都不是用户想要的,用户对产品的信任度会很低。GitHub Copilot 的成功因素-73-对话先行者洞见新未来于是他们决定先采用代码补全这种容错率更高的产品形态,一方面代码补全是个开发者使用频率非常高的功能,也有很强的依赖性,更重要的是开发者对于这个功能的预期是给出建议而不是 100%准确的答案。选择好产品形态后的一个要素是交互方式。GitHub Copilot 放弃了传统 IDE 中从下拉列表选择补全建议的交互,而是选择了用 Ghost Text 进行展示,用 Tab 键进行采纳,继续输入则取消推荐。这种交互方式发挥了模型在多行补全上的优势,推荐代码和已有代码融为一体,方便开发者快速基于上下文判断是否采纳。代码补全产品的一个技术挑战是实现低延迟,Jetbrains 在开发传统的补全功能时甚至要求在 150ms 内出现推荐列表以达到最佳的开发者体验。因为专业开发者的输入速度通常较快,过高的延迟会失去很多推荐的机会或者迫使用户停顿等待。GitHub Copilot 在大语言模型的推理速度和工程链路上进行了优化,让一个基于云端推理的 LLM 应用做到 500ms 左右的平均延迟。如果说基座模型决定了产品能力的上限,那么提示工程所做的努力就是去逼近这个上限。通过研究开发者日常开发中会关注的上下文,在 prompt 中加入文件路径、相似代码、浏览记录等信息,让模型在代码补全方面的表现大幅提升,如今这些提示工程上的实践也被大家广泛应用。字节跳动内部代码生成的探索历程字节跳动在内部探索代码生成的过程中,面临多种优化选择:可以在模型层面进行优化,也可以选择在工程链路上优化,或在交互体验上进行改进。团队需要灵活地做出决策。随着大语言模型的发展,特别是从 2023 年开始,这个领域开始受到广泛关注,新的模型和产品层出不穷。为了迭代和优化模型,字节跳动首先建立了自己的评测方法和自动化评测系统。这涉及到模型选型的决策,快速评估训练过程中的 checkpoint 效果,以及产品上线后如何收集线上反馈,包括用户编辑过程中的正反馈和负反馈。字节跳动还建立了一个完整的数据链路,以决定哪些数据被采纳,哪些被丢弃,并实施 A/B 测试系统来验证不同的 prompt 策略、参数配置,甚至是新模型的上线效果。字节跳动的自研大语言模型也已经发布,团队逐渐切换到这个自研模型上。基于此,字节跳动引入了对话方式,使代理-74-大模型领航者AIGC 实践案例集锦模型能够理解整个工程结构,并根据实际情况生成代码。此外,还引入了多点代码编辑推荐功能,这是一个较新的功能。今天的分享将围绕三个重点进行详细分析:构建自研评测体系的重要性;如何科学定义产品指标;A/B 测试的重要性。构建自研评测体系的重要性在于,它可以帮助我们避免使用不恰当的评测指标,如 HumanEval,它可能无法准确反映模型在实际应用中的表现。HumanEval 通过完成人工编写的算法题并运行单元测试来评估模型,虽然模型在测试的分数可能很高,但这并不意味着模型在代码补全产品中的表现就一定好。例如,GitHub Copilot 在 HumanEval 上的得分可能不高,但其用户体验仍然出色。自建评测集可以避免数据泄露问题,确保题目和答案不会被模型提前接触到。同时,自建评测集可以引入真实项目中的跨文件上下文,这对于评估模型能否合理利用上下文信息至关重要。此外,自建评测集还可以引入大量公司内部代码,因为开源代码与内部代码的使用场景和分布可能存在显著差异。评测体系还需要包括基于单元测试的验证方式,因为同一功能可能有多种不同的代码实现方式,而单元测试可以更准确地验证生成代码的正确性。最后,安全的自动化评测系统对于模型迭代至关重要。它不仅可以通过执行结果来验证代码的正确性,还可以防止模型生成有害代码,如删除根目录或造成大量内存分配等问题。高效的沙箱测试环境和高并发支持对于大规模的评测也是必不可少的。通过这样的评测系统,我们可以在训练过程中对不同 checkpoint 的模型效果进行评估,从而为模型选型和迭代提供有力支持。在科学地定义指标时,我们需要考虑代码补全流程中的各个环节,并确保所选指标能够准确反映产品优化的需要。一个有效的指标应该能够指导整个链路的优化,帮助我们识别瓶颈并进行相应的调整。采纳率是一个常被提到的指标,它通常定义为采纳次数除以推荐次数。虽然这个定义简单,但它并不是一个好的指标。首先,采纳率容易被操纵。例如,如果减少推荐次数,只在非常确定的时候去帮你补一个分号,采纳率就会提高,但这并不意味着产品的实际效果有所提升。其次,构建自研评测体系的重要性如何科学地定义指标-75-对话先行者洞见新未来采纳率没有很好地拆解推荐和采纳过程中的具体因素,无法明确指出是推荐更快了,还是其他因素导致采纳次数增多。体验指标是另一个需要考虑的方面。当用户在使用代码补全产品时,如果一个 Tab 操作就能接受推荐的代码并完成工作,这自然会带来良好的用户体验。体验指标可以反映用户对产品的满意度,但它并不直接指导产品优化的方向。在定义指标时,我们需要更细致地考虑如何反映产品的实际性能和用户体验,同时避免指标被操纵,并确保指标能够指导我们进行有效的产品迭代和优化。在探讨如何科学地定义指标时,引入了 CPO(Character per opportunity)这一指标,它是由一家专门从事代码补全产品的公司提出的。CPO 的计算公式由五个因子相乘得到:尝试率、反馈率、采纳率、每次采纳平均的 token 数以及 token 的平均字符长度。尝试率指的是用户在编辑器中进行操作时,AI 提供建议的频率。例如,如果用户敲击键盘 10 次,但只有 6 次触发了对模型的请求,尝试率就是 6/10。这个指标反映了 AI 实际为用户提供建议的次数。反馈率考虑了 AI 给出补全建议时存在的延迟问题。如果因为延迟太高,开发者已经进行了其他操作,那么即使推荐返回了也没有意义。如果发起 6 次请求,最终只有 3 次被展示,反馈率就是 3/6。采纳率是大家熟悉的指标,即用户接受推荐的次数与推荐次数的比值。例如,三次推荐中只有一次被采纳,采纳率就是 1/3。引入每次采纳平均的 token 数和 token 的平均字符长度这两个参数,是为了衡量不同长度代码带来的价值。不同的语言模型有不同的分词器,因此需要计算每个 token 平均的字符长度。例如,ChatGPT 的词表较大,平均一个 token 可以生成的字符数可能大于其他模型。CPO 指标的计算公式是这几个因子的乘积,它衡量的是在每次有机会向用户推荐时,推荐了多少字符给用户。这个指标不仅可以衡量产品给开发者带来的价值,还可以拆解到整个链路的各个部分进行优化。例如,可以通过优化模型推理性能,提高反馈率,或者在代码注释中提供推荐来优化尝试率。此外,当线上出现问题时,CPO 指标也可以用来分析可能存在的问题所在。A/B 测试在产品开发过程中扮演着至关重要的角色。尽管离线评测可以帮助我们进行模型选型,但一个模型是否真正有效,还需要通过线上测试来验证。有时候,一个模型在评测中得分很高,但这并不代表它在线上的实际表现同样出色。例如,一个非常强大的模型如 GPT-4,可能会因为高延迟而影响用户体验。A/B 测试的重要性-76-大模型领航者AIGC 实践案例集锦A/B 测试还可以帮助我们确定各种参数配置的合适值。比如,如果一个模型支持 16K 的上下文长度,是否就应该使用完整的 16K 呢?实际上,如果上下文过长,可能会导致整体延迟增加,影响用户体验。因此,需要通过 A/B 测试来找到最合适的上下文长度。此外,A/B 测试还可以验证新的提示工程策略的效果。例如,如果我们在模型中加入了函数签名或其他包结构信息,是否真的能提升效果?模型是否能够有效利用这些上下文?以及为了采集这些上下文信息而引入的额外延迟,是否值得?这些问题都需要通过 A/B 测试来验证。最后,A/B 测试还可以帮助我们发现并改进产品指标。假设我们最初使用的是采纳率作为指标,但在进行 A/B 测试后,我们发现延迟提高后,采纳率反而增加了。这种情况可能表明我们的指标存在问题,需要重新考虑和调整。代码编辑推荐:代码补全的进化代码补全的进化形式可以被视为代码编辑推荐。大语言模型擅长生成下一个 token,这与代码补全或续写任务非常契合。然而,传统的代码补全主要针对编写全新代码的场景,而软件工程师在日常工作中不仅需要编写新代码,还需要编辑现有代码,包括重构和删除代码。在这些场景下,传统的补全功能可能无法高效地满足需求。在编辑现有代码时,简单地删除一行然后重新编写是低效的。理想情况下,我们希望模型能够自动完成新增、删除、替换等操作,从而提高代码编辑的效率。因此,代码编辑推荐作为代码补全的进化,能够更好地适应软件工程师在实际工作中的各种代码操作需求,提供更加全面和智能的代码辅助功能。代码编辑推荐的概念涉及到一种更高级的代码辅助功能,它不仅包括传统的代码补全,还涵盖了对代码进行更深层次的理解和编辑。例如,假设你写了一个 log 函数,该函数用于打印一个 message,并且有两个函数作为调用方来使用这个 log 函数。代码编辑推荐的概念-77-对话先行者洞见新未来如果你决定给 log 函数添加两个新的参数,比如 sourceMethod 和 level,用以打印出对应的方法名称和日志等级,这时你实际上需要执行两个后续操作:首先,在 print 语句中添加新参数,以便能够打印出这些新信息;其次,在所有的调用方中也添加这些新参数,确保它们能够传递正确的值给 log 函数。在这种情况下,代码编辑推荐的目标是让模型在你添加完新参数后,能够自动帮你完成剩余的内容。理想状态下,当你完成添加参数的操作时,模型已经预测出你需要在 print 语句中加入这些参数,并且在你移动到调用方时,模型已经知道你接下来需要在这些调用点添加新参数。在 Go 语言中,如果你有一个结构体并且希望它在多线程环境下保持线程安全,通常会引入互斥锁(mutex)来实现。在这种情况下,你需要在结构体的初始化(new)、设置(set)和获取(get)方法中添加锁操作。智能的代码编辑推荐系统应该能够预测到你接下来需要进行的操作。例如,当你在 new 函数中添加锁时,推荐系统可以自动提示你在 set 和 get 方法中也添加相应的加锁代码。当你的光标移动到相应的方法上时,推荐系统就可以给出这些建议。数据构建和模型训练是提升代码生成能力的关键环节。模型的能力来源于数据,尤其是 Git 仓库中海量的 commit 数据,这些数据包含了丰富的用户编辑信息。现有的模型训练并没有充分利用这些数据,因为数据构建和模型训练方法-78-大模型领航者AIGC 实践案例集锦它们往往包含噪音,例如在 commit 信息中夹带无关内容。因此,需要通过启发式规则或模型来过滤掉这些噪音,提取出有相关性和逻辑关系的编辑操作。在编辑过程中,修正 Lint 错误是一个常见任务,这些错误信息及其修复方式也是非常宝贵的数据资源。在训练模型时,通常会选择一个基于大型代码表示模型作为基础,并通过持续训练和 SFT(Supervised Fine-Tuning)等方法让模型理解代码变更的差异。模型在修正代码时可能会出现过度编辑的情况,即模型可能会过于激进地进行不必要的修改。因此,需要采取措施抑制这种行为,确保模型的编辑是恰当和准确的。在进行中的优化方面,我们认识到目前的交互体验和展示方式可能并非最理想的状态。我们认为,集成在集成开发环境(IDE)中并进行一些 UI 上的定制,可能会带来更好的用户体验。此外,我们已经在内部支持了对链接错误(Link Error)和警告(Warning)的修复功能。这是一个重要的进步,因为它能够帮助开发者更快速地解决编译时遇到的问题。我们还在探索光标移动的自动识别和推荐功能。目前,模型通常需要等到开发者的光标移动到特定位置后才能进行预测和推荐。我们希望优化这一点,让模型在开发者完成编码时就能预测下一步可能的编辑位置,并直接提供相应的推荐。这样的优化将进一步提升代码编辑的流畅性和效率。进行中的优化代码生成 Copilot 的未来展望对于代码生成模型来说,一个明显的趋势是能够处理更长的上下文。理想情况下,模型能够理解整个代码仓库的内容。目前,K 级别和 M 级别的上下文可能还不够,模型需要能够无限地处理上下文信息。谷歌等公司已经提出了相关计划。但随着上下文的增长,保持推理速度不降低也是一个挑战,需要维持在几百毫秒的水平。一些公司如 Magic.dev 和 Supermaven 正在探索使用非-79-对话先行者洞见新未来Transformer 架构来实现这一点。对于产品形式,完全自主的 Agent 可能不太适合复杂的任务开发。程序员有时可能想用自然语言或注释来描述编码意图,但由于自然语言的局限性和文档编写的困难,最好的做法可能是 AI 与开发者通过交互的方式反复构思确认,并迭代完成复杂功能的开发。AI 应该更智能地识别人类的意图,例如通过编辑位置的预测来主动参与编码过程,提前帮助预判并提供推荐。虽然这个概念比较抽象,但最近出现了一些体现这一思路的例子。Replit 公司开发的代码修复 Agent 展示了 AI 作为一个虚拟协作者参与交互过程的能力。在多人协同的 IDE 中,AI 能够发现错误并以协作者的身份帮助修正,这是一种有效的主动式 AI 交互方式。明尼苏达大学的研究“Sketch Then Generate”展示了一种人与 AI 交互持续迭代的方法。通过编写有结构化的注释来指导模型,这些注释可以与代码的实体、符号、方法关联起来,先构建代码架构,然后逐步指导模型生成更多细节和代码。代码生成 Copilot 的未来将更加注重上下文理解、交互式产品开发、智能意图识别和人机协同工作,以实现更高效和智能的代码生成和编辑体验。扫码分享文章-80-大模型领航者AIGC 实践案例集锦演 讲|王宁,字节跳动技术专家策 划|蔡芳芳,InfoQ 主编编 辑|褚杏娟,InfoQ 编辑 傅宇琪,InfoQ 见习编辑在 QCon 北京 2024 大会上,字节跳动技术专家王宁,根据自己在字节的实践经历,发表了题为SRE Copliot:基于大语言模型的智能运维架构的演讲。本文由 InfoQ 整理,经王宁老师授权发布。以下为演讲实录。随着大语言模型的广泛应用和能力的提升,许多团队都在尝试利用大语言模型来改进他们所在行业的应用,我们团队在字节跳动内部也在探索如何将大语言模型与 AIOps 实践相结合。去年,我们带着 SRE-Copilot 框架参加了 AIOps 2023 挑战赛,并荣幸地获得了冠军。在比赛中,我们设计了一套更为开放和富有想象力的框架,进行了初步的探索。比赛的题目是开放性的,旨在鼓励大家尽可能地探索大语言模型在智能运维领域的应用潜力。选手面临的挑战是帮助企业运维团队应对日益庞大的系统规模、复杂的系统结构以及日益增多的数据量。比赛所用的数据来自中国建设银行“建行生活”APP 中的真实模拟数据。比赛的架构设计模拟了从入口负载均衡集群到中间的基础集群,如抢券集群和订单集群,这些集群之间相互依赖。此外,还包括了出口负载均衡集群,并且依赖许多复杂中间件如 Redis、MySQL、Kafka 等的各个集群。我们在比赛中获得的数据包括调用链数据、业务黄金指标,例如订单成功率、抢券成功率,系统交易的每个订单的延迟时间,以及集群的性能指标,不仅涵盖了基础集群,还有中间件集群的监控数据,如 CPU 负载、常见的出入网流量,系统日志数据等。大语言模型加持,是智能运维架构的未来吗?“-81-对话先行者洞见新未来为什么需要 SRE-Copilot 框架随着系统日益复杂和数据量的增加,即使是专业的运维团队也难以全面掌握所有技术细节。在大型企业中,每个组件,如计算、存储、数据库,都可能需要专门的运维团队。当出现大规模故障时,通常需要所有团队协作来定位问题根源。而 SRE-Copilot 框架可以通过大语言模型的能力,学习和模拟不同团队的运维知识,以解决整个链路上的技术问题。传统的 AIOps 在异常检测和根因分析上严重依赖于标注数据,这限制了算法的泛化能力,因为它们需要在有监督的环境下进行训练。而大语言模型能够学习更多的通用知识,减少对标注数据的依赖,从而降低训练成本。运维团队积累的专家经验很难编码到算法模型中。通常,这些经验会被简化为阈值或复杂的规则,不仅难以维护,也难以传承。SRE-Copilot 框架通过大语言模型,将专家经验转化为模型可以理解和推理的形式,从而提升了故障处理的能力。-82-大模型领航者AIGC 实践案例集锦传统 AIOps 的接入和维护成本较高,需要业务和算法团队深入理解业务逻辑和算法模型。此外,私域数据的处理和定制化开发也增加了成本。SRE-Copilot 框架采用集成学习的概念,通过模块化设计,使得系统能够像搭积木一样动态编排。在传统 AIOps 中,未遇到过的故障很难被解决,因为它们超出了模型的训练范围。大语言模型展现出了强大的推理能力,能够基于通用知识和训练中学到的关键字,推断出未知故障的性质,即使没有相似的训练数据。传统的 AIOps 解决方案需要用户理解模型并精确地传递参数,而 SRE-Copilot 框架支持自然语言交互,使得非技术用户也能轻松地与系统交互,提高了用户体验,并有潜力开放给更广泛的用户群体。SRE-Copilot 框架,采用了基于 function call(函数调用)的方法来实现多功能的智能运维。我们首先将 SRE 在日常运维中可能遇到的多种场景进行了统一收敛,通过大语言模型来理解用户的意图。无论是进行运维可视化还是故障分类,我们的目标是编排不同的工具,以实现一个多场景的智能运维解决方案。在比赛上,我集成了一些简单的场景,虽然每个场景本身并不复杂,但我们尽可能探索了许多新的场景,以测试和展示 SRE-Copilot 的多功能性。比如我们实现了故障分类功能,并让框架能够生成故障自愈的代码,以自动化处理常见的问题。实践效果如何?我利用大语言模型生成了一个排查故障的工作流,并以自然语言的形式呈现。根据提前设定的 Agent,模型会匹配并确定哪些 Agent 能够在排障工作流程中发挥作用,然后将这些 Agent 编排成一个可执行的工作流。我可以通过自然语言向模型提问,比如询问特定时间段内的问题。模型会提取相关参数,并动态地将任务分配给相应的子 Agent。每个子 Agent 会检查自己的数据,寻找故障迹象。例如,调用链 Agent 会检查调用链是否存在问题。如果检测到 CMDB(配置管理数据库)中的信息,模型可以进行下钻操作,比如定位到具体的集群,然后触发下一轮更深入的检测。如果没有更多的信息,模型会开始进行根因诊断,检索历史故障-83-对话先行者洞见新未来和专家经验,以此来判断当前的故障类型,比如磁盘写满。在诊断过程中,我会将相关指标进行可视化展示,帮助理解故障的性质。根据诊断结果,我会生成清理磁盘的简单代码。如果是线上执行,模型会匹配预设的自愈方案。每次故障诊断完成后,会自动生成告警总结和复盘报告。诊断的故障信息会自动积累下来。如果用户对诊断结果进行确认,那么这个故障案例就会被记录到历史故障库中,供模型未来诊断时参考。在比赛的复现过程中,我们在建行云的 8 核和 16G 内存的堡垒机上进行了演示,并使用了一张 V100 显卡。实际上,我们仅使用了开源的 ChatGLM 6B 的小模型,就实现了上述效果。-84-大模型领航者AIGC 实践案例集锦SRE-Copilot 架构在 SRE-Copilot 架构中,Tool calling 是指将大语言模型与外部工具有效结合或交互的能力。这种机制允许模型解决它自身无法直接回答的问题,因为它可以调用外部工具来获取所需的信息。以询问天气为例,大语言模型本身无法提供实时天气信息,因为它缺乏对外部环境的感知。为了解决这个问题,需要设计一个封装用户问题的方法,并提供一个能够获取当前天气的接口工具,再通过一些描述指导模型使用接口。例如,接口可以根据给定的地点查询天气,它是一个 function,需要两个参数:地点(location)和温度单位(如摄氏度或华氏度)。成熟的大语言模型,如 ChatGPT 或文心一言,通常都是通过相似的训练方法来实现这一机制。模型会调用适当的函数,并且能够从用户的问题中提取出必要的参数。假设用户询问的是伦敦的天气,模型会自动将“伦敦”作为 location 参数补全,并指导调用天气查询接口,从而提供准确的天气信息。SRE-Copilot 架构中的另一个重要概念是检索增强生成(Retrieval-Augmented Generation,简称 RAG)。RAG 结合了搜索技术和大语言模型,旨在解决几个关键问题。首先,它可以帮助处理私域知识,例如公司内部服务器的状态或特定订单的详情,这些信息是大语言模型无法直接感知的。RAG 能够解决新知识的问题。以电影为例,如果模型的知识截止日期是 4 月,那么它不会知道 5 月上映电影的主演是谁。同样,对于当天发生的新故障或新闻,模型也无法感知。RAG 也适用于长尾问题,即那些在模型训练时不常见或非常具体的问题。例如,如果用户需要编写某个小众语言的代码,或者询问关于特定数据库连接的问题,尤其是当这个数据库是公司内部改造过的,传统的大语言模型可能无法提供答案。为了解决这些问题,可以利用传统的检索方法,比如搜索公司内部文档,查找是否有关于特定语言连接数据库的 QA 文档。一旦检索到相关文档,我会将文档中的相关内容与用户的问题一起输入给大语言模型,以便模型能够提供一个更准确的答案。Tool callingRAG-85-对话先行者洞见新未来ReAct 概念针对的是那些无法仅通过一步查询或大语言模型自身直接解决的任务。这些任务通常需要多步骤的执行,并且每一步都需要模型提供其思考过程,以减少模型产生幻觉现象的风险。通过 ReAct,我们可以将任务的每一步规划和执行可视化。例如,如果任务是让大语言模型去厨房做菜,模型可能会首先思考需要哪些调料,并预测它们可能存放的位置。比如,模型可能会推断出胡椒可能在 1 到 6 号柜子里,或者 1 到 3 号台面上。模型首先会选择检查第一个柜子,如果没有找到胡椒,它会根据这一步骤的结果,决定下一步检查其他柜子。再比如,当用户询问 GitHub 上某位开发者获得的点赞数并想要得到该数值除以 2 的结果时,模型的第一步是通过 GitHub 的 Open API 获取点赞数,然后使用计算器工具进行除法运算,通过这两步操作来得到最终结果。ReAct 概念旨在通过分步骤地规划,并在每一步中进行合理的推理和决策,来执行越来越复杂的任务。智能体主要由三个部分组成:1.大脑:最核心的部分是大语言模型,它扮演着智能体的大脑角色,负责处理和生成语言输出,同时整合和利用知识库中的信息。2.感知:智能体的第二部分是它的感知能力,这涉及到使用外部工具来感知图片、声音等信息。通过这些工具,智能体能够与外部世界进行交互,获取必要的数据。3.行动:智能体还可以通过计算 API、查询 API 等工具进行实际的交互操作,执行真实世界中的行动。这使得智能体能够处理更为复杂的任务,如根据图片内容推断位置并查询当地天气。我们期望实现的是多个智能体之间的复杂交互,让智能体不仅能够独立工作,还能够相互协作,共同解决更加复杂的问题。在 SRE-Copilot 框架的具体实现上,我根据比赛时提供的数据,在最底层为每个数据源设计了相应的 Agent。这些数据源包括日志、调用链、交易类型数据、主机监控数据以及 CMDB 数据等多Reason ActAgent 智能体架构设计思路-86-大模型领航者AIGC 实践案例集锦元数据类型。对于每种类型的数据都设计了一个 Agent,使其能够进行异常检测、数据可视化,以及查询历史故障和返回故障描述等操作。在底层 Agent 之上,我定义了功能型 Agent,它包括知识库问答、工作流规划、故障报告编写和代码生成等能力。这些功能型 Agent 能够基于 ReAct 框架,调用底层的子 Agent,并动态地编排它们的执行顺序和结果。在框架的最顶层,我设计了一个名为 Copilot 的智能体,它作为与人类用户交互的核心。Copilot 负责识别用户的意图,判断用户是想要获取答案还是进行故障诊断,并从用户的问题中提取出相关参数。例如,用户可能询问某个具体时间段的情况,Copilot 可以将这个时间段作为参数传递给后续的处理流程。随着大语言模型的智能化,它甚至能够理解并处理如“过去 15 分钟”这样模糊的时间段,并将其转换为具体的参数。顶层 Copilot 还能够进行任务分配和 Agent 之间的协调工作,确保整个框架能够高效地响应用户的需求。在设计 SRE-Copilot 框架时,我借鉴了 GPT 背后的集成学习思想。我们的目标并不是开发一个庞大而全面的模型来解决所有问题,而是通过集成多个专精于特定领域的子 Agent 来实现。每个子 Agent 都在其专业领域内表现出色,我们采用混合专家系统(Moe,Mixture of Experts)的形式,使整个系统的效果更加完善和高效。-87-对话先行者洞见新未来SRE-Copilot 技术细节首先介绍一个异常检测场景,以下是我们在这个场景中定义的角色:1.Copilot 主持人:作为核心,Copilot 负责解析用户需求,制定运维计划,并安排不同 Agent 执行具体任务。2.多数据源 Agent:针对不同的数据源,如日志、调用链、交易类型数据、主机监控数据以及 CMDB 数据,我们设计了专门的 Agent。这些 Agent 利用合适的算法对各自模态的数据进行异常检测和检索。3.RCA Agent:该 Agent 负责收集其他 Agent 的检测结果,并执行最终的根因分析推理。以 Copilot 为起点,例如,当收到用户关于 9 月 18 日下午 4 点大量交易失败的请求时,Copilot 会识别这是一个根因诊断问题,并将任务交给 RCA Agent。RCA Agent 会关注用户请求中的关键信息,如交易类数据,并将其传递给交易类型 Agent 进行初步检查。该 Agent 将返回关于交易量同比下降的结果,但不提供额外信息。根据初步检查结果,系统会动态调度其他 Agent 检查各自负责的组件是否存在问题。例如,当轮到第五个 Agent,即调用链 Agent 时,它发现了调用链上的异常情况。调用链 Agent 的反馈将引导 CMDB Agent 在 CMDB 中查询接口的调用记录,上游下游关系,以及接口的具体问题。通过这种方式,我们模拟了真实线上云平台中多个组件之间的协同定位过程。整个异常检测过程完全自动化,没有一个固定的流程,而是根据每个 Agent 的检测结果动态地调度其他 Agent,共同完成异常检测任务。有了上一步的异常检测结果,接下来需要对这个异常检测的结果做根因定位,或者说故障的分类。首先,获取异常检测组件的结果,并对其进行了一些调整,使其返回的不仅是传统的 true/false 或 JSON 结构体,而是大语言模型和人类都容易主要运维能力:异常检测主要运维能力:根因定位-88-大模型领航者AIGC 实践案例集锦理解的自然语言描述。例如,异常检测结构体可能会返回:“本次故障持续了 10 分钟,CPU 指标飙升,内存也被打满,某某接口出现了大量失败”。然后,这个故障工单会转换成向量,并在提前构建的向量数据库中检索。向量数据库包含两部分内容:一部分是提前配置的专家经验,另一部分是历史上遇到的相似故障记录。例如,如果历史上遇到过内存打满的问题,通过重启服务解决了问题,这样的专家经验会被记录在系统中。在当前故障检测时,系统会同时检索出相关的专家经验和历史故障信息。通过 RAG,将当前故障描述、专家经验和历史故障信息一起输入给大语言模型,进行根因推断。大模型会根据提供的信息推理,例如,这是否是内存打满的问题,是否需要通过重启服务来解决。RAG 方法可以帮助大语言模型不断地更新其知识库,适应新的故障情况,同时减少模型的幻觉现象。通过引入历史故障数据和反思机制,模型的准确率得到提升,幻觉现象得到降低。即使在没有提前配置专家经验或历史故障数据的情况下,使用的 6B 大小的模型(如 ChatGLM 3)仍能够对某些类型的故障做出准确的推理,如磁盘写满或 Java GC 问题。字节的实践探索字节跳动内部的目标是先将基于大语言模型的根因诊断(RCA)Agent 框架落地应用,因为根因诊断是 SRE 团队面临的一个主要挑战,它占用了大量的时间和精力,日常的 On Call 问题定位也给团队成员带来了沉重的负担。我们希望专注于解决这些实际问题,真正缓解 SRE 同事的痛点。我们定义了一些工具和插件,是在出现故障时用来进行检测的工具。除了工具和插件,我们还设计了工作流编排,以自动化和优化故障处理流程。我们构建了一个知识库,它包含了历史故障数据、专家经验和故障处理策略,这些都是进行有效根因分析的关键资源。基于 LLM 的 RCA-Agent 构建-89-对话先行者洞见新未来构建知识库方面所做的工作主要包括以下几个部分,并且我们计划未来会引入更多用户原始文档、历史 On Call 记录等不同类型的数据。排障专家经验:这部分是根据根因诊断的场景特别设计的,目的是让业务团队的成员能够管理和记录他们的知识和经验。我们定义的每一个经验都是一组根因故障,包括故障发生时的描述和一些止损措施的组合。这些信息将被用来训练大语言模型推理。例如,流量突增导致的故障,其根因可能是用户 QPS 的突增。故障的表现可能是流量首先突增,随后内存和 CPU 使用率也跟着上升,最终导致服务不可用。这种描述将帮助模型理解故障模式。对于上述故障,可能的止损措施包括重启服务或进行扩容操作。故障场景 SOP 文档:我们希望用户输入的是一些 SOP 文档。这种方式给组件团队提供一种灵活管理知识的方法。我们选择这种半规范化文档的形式,是因为当前大语言模型的能力还有局限,需要通过文档梳理来帮助模型更好地理解。历史故障信息:我们还维护了一个历史故障信息库,记录每一次通过大语言模型检测到的故障,这些记录会用来对组件团队进行训练和打标。在构建 SRE-Copilot 框架的基础工具方面,我们参考了 OpenAI GPTs 将工具集成到平台时所遵循的规范。我们将运维场景中的一些关键指标和基础工具进行了统一管理,把传统的异常检测方法统一成一个工具,用户只需要维护他们需要进行异常检测的指标即可。用户可以自定义检测项,包括指标名称、指标的标签或指标描述,以及定义何为异常表现。因为是用户自定义的工具,所以可以根据具体需求设置检测标准。我们实现了一个变更事件查询工具,当出现故障时,用户可以通过调用这个接口来确定是否由线上变更导致。我们在平台上部署的组件配置了一些工具,例如异常检测、变更和事件查询等,还包括了自然语言的意图理解和大语言模型的根因推理功能。知识库的构建基础工具的构建-90-大模型领航者AIGC 实践案例集锦关键的根因推理功能基于大语言模型。在实践中,我采用了一种新的方法,不再将故障数据压缩成向量空间进行聚类分析,而是利用大语言模型将故障映射到自然语言空间中,从而简化了故障分类过程。例如,流量突增、内存升高和接口不可用等信息可以自然地描述为 QPS 问题。对于新出现的具有相同描述的故障,可以直接使用大语言模型进行分类,而无需计算向量空间中的相似度。分类过程中会使用用户配置的专家经验和当前故障的检测结果。此外,工具还利用预定义的模板生成描述,并让大语言模型进行推断,而用户可以根据需要调整这些模板、专家经验和检测结果。为了提高根因推断的准确性,确保检测项插件的描述足够具体,比如详细描述指标曲线的形态变化,以及变更检测组件提供的详细信息,如变更的范围和性质。这样的方法不仅提高了故障分类的效率,还能让大语言模型的推理过程更加精确。核心工具:LLM 根因推理-91-对话先行者洞见新未来下一步是构建工作流,目前这一过程仍然需要用户自行配置,这主要是由于大语言模型当前能力的限制所做出的妥协。不过,我们正在探索一种新的方法,即允许用户在其 SOP 文档中预先设定工作流,例如,文档中可以指明首先需要检查哪些指标,以及根据这些指标的结果接下来应该检查哪些指标。我们希望能够训练大语言模型,使其能够直接根据用户的 SOP 文档生成工作流。最终,SRE 团队能够向大语言模型提供一个简单的文档,甚至是未经格式化的文本,而模型能够根据文档中的指标或检测项动态地编排诊断步骤,并根据每一步的检测结果,智能地调度后续的执行流程。我们在一些组件上进行了 RCA 的试点工作,实现了一些改变传统交互方式的效果。现在,用户可以通过提出模糊的问题来与系统交互,例如询问某个集群存在哪些故障,系统会自动识别并调用相应的集群诊断工作流。完成诊断后,系统不仅能够将结果进行美化或封装,还能以卡片或自然语言的形式向用户直观展示。此外,在面对大规模故障时,系统能够自动解析故障群中的告警卡片信息或历史消息,判断需要诊断的参数,如特定集群和时间段,自动提取所需参数,并触发相应的诊断流程。针对我们遇到的瓶颈,我认为未来需要继续在下面几个方向增强。第一,我期望有越来越大、能力越来越强的通用大语言模型,因为随着这些模型能力的不断提升,在动态根因推理和每一步的动态决策上,它们的准确率和效果都将得到显著提升。第二,我期待能够开发出更强大、更专业的模型,工作流的构建Agent 的应用与调试未来展望-92-大模型领航者AIGC 实践案例集锦例如时序大模型或日志大模型,并将这些专业模型作为工具,供核心 Agent 调用。第三,我正在探索是否能有更灵活的 Agent 框架,以支持多轮和更灵活的对话,比如让用户在排障过程中随时打断并提供关键信息,以此缩短故障排查的平均时间。实现多人或多 Agent 之间的真正协作。第四,我期望 Agent 能在更丰富的场景 中应用,目前它们可以像实习生一样帮助进行简单的监控数据处理,未来随着模型和工具能力的增强,我希望它们能够发展到像初级员工或应届生那样进行一些简单的决策,甚至最终成为一个资深专家,能够自动诊断问题并执行高级决策。扫码分享文章-93-对话先行者洞见新未来作 者|褚杏娟,InfoQ 编辑 赵钰莹,InfoQ 极客传媒副总经理知乎上有人详细分享了自己参与 AI 面试的经历:“点开链接,在手机上是用小程序,电脑是浏览器。一开始有个预录,检查手机摄像头、麦克风以及自己的语音声音大小。开始做答之后有 5 个题目。每个题目 6 分钟,包括构思和录制视频。点击录制视频有 5s 的准备时间,5s 之后手机自动录像,你开始答题,视频录制不超过 5 分钟。录制完之后,返回答题页面,可以回放。5 分钟答题时间到,它会提醒提交,然后点击提交。就进入下一题。”“我觉得 AI 面试的公司压根就没打算招人”,这是 AI 面试刚出来时人们通常会给的评价。但现在,大家对 AI 面试的接受度已经很高,AI 面试的争议更多是出现在一两年前,现在网上几乎都是 AI 面试的建议、题库等。“和传统面试比起来,我更倾向于用 AI。AI 对于你的输入、表情、动作都会关注,更加全面考核,至少是对所有候选人是公平的,不会出现面试官主观的偏见偏差、个人因素等问题,当然也得要求 AI 面试要足够智能。”广州大学嵌入式应用专业的一名本科学生说道。根据2024 牛客智能制造业校园招聘白皮书,53.5%的对智能制造感兴趣的学生有参与过 AI 面试,而参与过 AI 面试的学生中高达 77.7%的人表示满意。用 AI 面试员工的企业,知道打工人在想什么吗?!“-94-大模型领航者AIGC 实践案例集锦这次,传统行业走在了前头面试可以用 AI 进行,也说明了面试本身在一定程度上是可规则化的。有做人力资源管理的网友分析称,抛掉“人间冷暖”不谈,面试的本质是按图索骥,一场高效的面试依赖以下几个方面:人才画像 AI 可以结构化提问 AI 可以关键词评估 AI 可以情绪稳定度 AI 应该可以(可能不精确)与公司文化/直接上级的默契度 AI 也许可以(双向测试后可以提升匹配度)如果一家公司坚持不懈地做 AI 面试,积累匹配组织发展的人才大数据,那么招聘的人才至少 80%左右是完全靠谱的,再加上终面 BOSS 感受一下,精准度应该可以达到 90%以上,这比有 3-5 年工作经验的 HR 靠谱多了。当然,AI 面试最终会让类似的人都聚集在一起,很有可能导致组织僵化。在组织需要变革、寻找一些鲶鱼进入组织时,人才画像将完全不一样,AI 的底层面试逻辑就要随之重构。“我曾经只是作为辅助面试人员参与了公司里的终面过程,一整个上午也就搞了六七个人的面试,到中午吃饭的时候,主面试官基本上就快累趴下了。但是在我看来,很多面试官工作内容并不复杂,甚至到后面有一些机械。不管面试者说啥,面试官都是在固定重复问几个问题。”弗兰克扬在知乎上分享称,“我也不觉得这会有什么大问题,因为最关键的信息其实就那么一两个,剩下的就是看你还想从聊天中聊点什么了,不管你聊什么,大部分都不会影响最终的决定。”“弗兰克扬”表示,十多年前,一些大企业会把前几轮的招聘流程给外包公司,这些外包公司先筛选简历、再进行电话面试,问的问题都是雇主公司规定好的,全程录音,然后再根据面试情况做筛选,最终把报告发给雇主做最终决定。“现在 AI 的水平,我感觉跟当年外包干的工作都差不多。”牛客联创兼技术负责人杨之贤介绍称,AI 面试特别适合招聘规模较大、考核能力相对标准的岗位,如校招管培生、普通蓝领、销售岗位、客服群体、小语种岗位等。以互联网为例,IT 基础岗位初筛、产品运营岗位、销售岗位、客服岗招聘人数超 10 人以上均有可能使用 AI 面试。消费行业是最早尝试使用 AI 面试的行业之一,而且外企的接受度更高,比如雅诗兰黛、宝洁等。今年,随着大模型的兴起,越来越多的行业对 AI 面试表现出了兴趣,互联网、国企央企、银行、教育、电信、汽车、快消、制造业等行业都引入了 AI 面试。-95-对话先行者洞见新未来比如 2023 年,光储行业里的龙头企业阳光电源决定将所有管培生岗位的英语面试全部使用牛客 AI 面试代替以往的英语外包面试。当年,阳光电源 AI 面试的管培生超 500 人次。杨之贤表示,目前国内大约有万级别的企业在面试流程中加入了 AI 面试,而且这一数字还在不断增长。据牛客 2023 秋季校园招聘白皮书的调研数据指出,已有 23.2%的先锋企业应用 AI 助力校招,其中使用 AI 助力笔面试环节的企业占比达 97.9%。被放大的细节AI 面试的优势是不会受到情绪、偏见或其他主观因素的影响,它会根据事先设定的评分标准进行客观评价。AI 面试会重点会考察面试者以下三个能力:胜任力测评,包括学习能力和抗压能力,这些通常是衡量一个人是否适合工作的重要指标。专业能力,即面试者在特定领域的知识和技能。这是根据不同岗位的要求来考察的,以确保面试者具备所需的专业素质。语言能力,比如英语、越南语等,良好的语言能力对于与外企的国际团队合作和沟通至关重要,还有的工作也需要一定外语能力。结合面试者的简历和回答,AI 面试系统会进行提问和追问,并利用大模型的自然语言理解能力和逻辑推理能力,给出面试者对应能力项的得分。“智能判分是基于岗位专业素质、通用能力素质和语言能力素质的综合科学判定。我们会综合考虑面试者回答内容的专业性、相关性和逻辑性等因素,并结合回答状态进行综合判定。”杨之贤说道。AI 面试成绩单-96-大模型领航者AIGC 实践案例集锦AI 面试评判更加标准化,这就要求应试者当下就要快速反应,回答得清晰、有逻辑,覆盖题目中所有的问题。“回答得是否高大上不重要,重要的是你的回答是否具有逻辑。”网友“肉丝 er”也分享道。“肉丝 er”也还特别提到,眼神千万不要飘忽不定,有的 AI 能够根据面试者的眼神分辨其是否在读稿,一旦被判定为读稿,那么不管面试者说得多好都会被 pass 掉。这是因为有的 AI 面试系统有眼神追踪功能,四处乱瞟会被视为作弊。“通过分析面试者的微表情,可以更准确地判断其是否在面试过程中存在作弊行为。”杨之贤表示,“这是为了保证面试的公平性和诚信性。”因此,除了专业能力,面试中的语速、情绪、肢体语言等都可能影响 AI 系统对面试者的评分。要知道,虽然 HR 可以查看面试视频,但大多数时候是根据 AI 的评分做初步筛选的。另外,还有一些服务行业的公司会用 AI 进行性格测试。Paradox.ai 的性格测试在 Reddit 上多次疯传,联邦快递、麦当劳等公司都使用 Paradox.ai 公司的 AI 面试系统,通过“漫长而奇怪的性格测验”来招聘客户和食品服务工作人员,并附有“蓝色外星人”形象,目标是发现候选人在“亲和性”和“情绪稳定性”方面的排名。-97-对话先行者洞见新未来AI 选不了 CEO而对于研发这样的 AI 面试系统,最重要的是数据训练。据杨之贤介绍,牛客采用了大模型和小模型的结合方式,自研了 AI-NowGPT 模型。为了保证“AI 考官”的公平和专业,牛客内部邀请了大量资深面试官对相同数据做人工标注,以确保 AI 考官在评分和评价方面与人类面试官保持一定程度的同步。有的公司也会邀请客户企业参与标注,这样 AI 考官的评分标准会更加符合客户的需求。客户的参与可以帮助企业微调模型,使其更加符合特定岗位的要求。人类考官也可以对一部分或全部的面试结果进行复核,确保 AI 考官的判分结果的准确性和公正性。像牛客这样还拥有笔面试 SaaS 产品的招聘网站,拥有专门的内容出题团队,借助海量的题库资源,还可以实时定制出题。不过,杨之贤也表示,目前的 AI 面试还只是主要用在初步的大规模快速筛选上,对于后续的面试轮次,不同面试官关注的能力和业务知识可能存在差异,这是 AI 面试目前无法帮助解决的。“AI 选不了中高级管理层,也选不了 CEO。”理想的情况是 AI 系统能够根据面试官的要求自动生成面试方案:面试官口述想要考核的能力,AI 快速提炼出相关考核点,并生成相应的面试问题和评估标准。这样,面试官就能更加专注在候选人的表现上,不需要花费过多精力在准备面试方案上。但凭现在 AI 的能力,在快速提炼考核内容方面还存在比较多困难。此外,AI 面试系统还可以在面试过程中提供一些辅助功能,比如邀约和谈薪资:AI 可以自动发送邀约邮件或短信,并根据候选人的反馈和面试结果,提供薪资谈判的建议。杨之贤表示,未来除面试外,AI-NowGPT 还将增加简历的点评、优化功能,同时提供准确的人岗匹配度评估,帮助企业找到岗位最合适的候选人。然而,人类面试官的亲和力和人际交往能力在面试过程中仍然非常重要。虽然 AI 可以提供面试方案和辅助功能,但在与候选人的互动和评估中,人类面试官的角色仍然不可或缺。他们可以通过面试过程中的非语言交流和深入提问,更好地了解候选人的能力和适应性。此外,电子前沿基金会社区组织副主任 Rory Mir 也指出,当前人工智能浪潮使用的是概率模型算法,这意味着它们只是依赖过去的数据模式做出预测。“问题是,过去数据的模式包括系统性偏见产生的模式。”-98-大模型领航者AIGC 实践案例集锦用 AI 打败 AI当然,除了招人企业用 AI,面试者也会“用 AI 打败 AI”。Interview Dog 是一款专门的 AI 面试辅助软件,可以通过实时语音识别问题来帮助面试者回答考官的问题,支持科技、金融、工程、商业、法律等行业。Interview Dog 主打“按需使用”,五分钟的免费试用之外,每分钟付费 0.45 美元。为此,Interview Dog 在网上也得到了很多好评:“在我大脑短路时,Interview Dog 让我想起了一切”“有了它,谁还需要运气啊!”但直接念答案也是有风险的,遇到自己不会的问题,“假装”思考后对答如流是会被 HR 怀疑的。“我之前面了一个小女孩,答的太完美了。于是我钓鱼了几个问题,她说的和 GPT 的结果八成相似,给她上了点压力后,一个问题都答不出来了。”网友 momo 分享道。对此,有的人认为这种做法并无不妥:“工作不就是借助各种工具完成任务吗?既然面试是模拟工作场景,那用不用 GPT 取决于面试者,只要结果出来就完事了。”但国内大多数企业是不太接受这种说法的,至少像算法思路这种应该是自己能回答的,否则就变成了纯粹的“工具人”。小红书的一个博主发起了“面试应该允许使用 GPT 吗”的小调查,参与的 1207 个人里,47%的人投给了可以,剩下的人还是认为不应该,“面试不能用 GPT 就跟考 GRE 不能查字典是一个道理。”-99-对话先行者洞见新未来除了这种直接用来应对面试的工具,还有之前普遍被认为“水深”的简历优化。在猎聘等招聘网站上,一对一的简历优化收费达到了 398 元,但有网友给出的评价是:花钱改简历抽奖,而且中奖几率极低!现在,有的应聘者会用 ChatGPT、文心一言等优化简历,还有人开发了基于 ChatGPT 的简历工具,用户可以直接使用 ChatGPT 自动修改。这种用法,基本不会有什么争议了。未来,面试者和招聘者手里的魔法谁会被打败,似乎也是一个有趣的问题,毕竟 AI 不会站队。猎聘网简历优化收费套餐扫码分享文章-100-大模型领航者AIGC 实践案例集锦嘉 宾|汪晟杰,腾讯云产品专家编 辑|李忠良,InfoQ 编辑代码大模型的出现极大提升了工程师的效率,但同时也带来了安全性与隐私性问题的挑战。如何应对这些挑战?有哪些最佳实践可以帮助企业在利用这些 AI 工具时确保代码安全和隐私保护?软件开发者应该如何准备和适应这种由 AI 带来的变革?AI 工具接管部分编程任务后,开发者的角色又会发生哪些实际变化?我们对腾讯云产品专家汪晟杰进行了访谈,以下为访谈实录:AI 代码助手革新编程界:腾讯云专家汪晟杰深度剖析机遇与挑战“-101-对话先行者洞见新未来技术有效性和限制InfoQ:您如何评价当前 AI 代码助手如 GitHub Copilot 在理解复杂代码结构和项目架构方面的能力?汪 晟 杰:当 前 的 AI 代 码 助 手,如 GitHub Copilot,以及腾讯云 AI 代码助手,都展示了在理解复杂代码结构和项目架构方面的显著进步。他们都有着如下优点:在编写简单到中等复杂度的代码时,它们可以提供有用的代码建议和补全,从而提高开发者的代码生产力。通过分析大量的开源代码库,它们可以学习到许多编程语言和框架的最佳实践。对于某些常见的编程任务,它们可以生成准确的代码片段,减少开发者的工作量。然而面临着成本和速度的权衡,以及如何塞下整个工程代码上下文来理解工程。譬如对于非常复杂的代码结构、大仓或者多仓的项目重度依赖的情况,AI 代码助手可能无法完全理解其逻辑和设计,导致生成的代码片段不准确或不适用。最近 GitHub Copilot 的企业版的知识库可以对项目工程做 Indexing Embedding,可以大大强化本地开发并享用远端向量,从而提升对于工程理解的提问和回答。这块我将在本次分享中重点和大家分享。InfoQ:针对多文件和大型项目,这些工具在理解上下文和逻辑关系方面表现如何?汪晟杰:在补全场景下,对于常见的编程模式和结构,AI 代码助手通过语法分析等多种策略,可以较好地识别和理解多文件之间的关系。比如你用了工厂单例模式构造一个对象,在调用上就知道我这个对象要用到工厂类。在 GitHub Copilot 实战中,需要打开相关的文件。在腾讯云 AI 助手上,我们采用了快速的语法树能力快速找到相关文件引入提示词,从而让大模型能感知到更多上下文。通过分析大量的开源代码库,它们可以学习到许多编程语言和框架的最佳实践,从而在一定程度上理解大型项目的结构和组织方式。InfoQ:在使用如 CoT 和 RAG 这类技术时,有哪些明显的优势和存在的局限性?汪晟杰:CoT(Chain of Thought),本质上是对于提问者的问题的思维链的拆解,并逐步去解决子任务的要求并合并成最终答案。首先在上下文理解上:CoT 有效的通过 Multi-Agent 方式,来拆解并安排下一轮的子任务,同时可以通过 RAG 进行代码推理,从而生成更符合需求的代码。其次,有高质量的代码生成:通过模拟人类程序员的思考过程,自主获得并进行下一轮的执行,-102-大模型领航者AIGC 实践案例集锦可以选择不同模型、或者 Function call 来调用业务函数,或者通过上下文找到问题出错点并在下一轮进行修复方案。RAG 则是保障了项目代码扩展理解能力。InfoQ:您认为未来这些工具需要哪些改进才能更好地支持复杂的软件开发任务?汪晟杰:当前的 AI 代码助手,如 GitHub Copilot,已经在简化软件开发任务方面取得了显著的进步。然而,要更好地支持复杂的软件开发任务,未来这些工具可能需要以下几方面的改进:更好的上下文理解:AI 代码助手需要更好地理解项目的上下文,包括项目的目标、架构、已有代码的功能等。这可以通过更先进的自然语言处理和代码分析技术来实现。更强更快的代码推理能力:对于复杂的代码逻辑和算法,AI 代码助手需要有更强的推理能力,以生成正确和高效的代码。这可能需要更先进的机器学习模型和算法。更全面更深地集成 IDE:AI 代码助手需要更广泛的支持主流的 IDE,并深入地集成到集成开发环境(IDE)中,以提供更流畅和无缝的用户体验。这可能包括更好的代码提示、实时错误检测、代码重构建议等功能。更全面的编程语言和框架支持:AI 代码助手需要支持更多的编程语言和框架,以满足不同开发者的需求。这可能需要分析和学习更多的开源代码库。更高的安全性和可靠性:AI 代码助手需要在生成的代码中考虑到安全性和可靠性,避免引入潜在的安全风险和错误。安全性和隐私问题InfoQ:在使用 AI 编程助手时,如何处理和保护敏感和私有的代码数据?汪晟杰:有以下六个方面值得考虑。选择可信赖的 AI 编程助手:在选择 AI 编程助手时,选择那些来自可信赖来源、有良好声誉的工具,这些工具通常会遵循严格的数据保护政策和安全实践。我也建议不要把核心代码用 GitHub Copilot 去生成,因为你的代码上下文是直接经过他们海外服务器。了解数据保护政策:在使用 AI 编程助手之前,详细了解其数据保护政策和隐私条款。确保这些政策符合您对数据保护的要求,特别是关于数据-103-对话先行者洞见新未来的收集、处理和存储方面。是否提供安全私有化能力:在银行等领域腾讯云积累了很多客户实践。我们一键部署升级,并在封闭的环境、信创环境下都有着不错的客户反馈。对于技术对话解决了在不可上网的环境下,搜索技术问题找寻答案的另一种安全方法。遵循最佳实践:在编写代码时,遵循最佳实践,将敏感信息(如密码、API 密钥等)从代码中分离。将这些敏感信息存储在安全的配置文件或环境变量中,而不是直接嵌入到代码中。限制访问权限:确保 AI 编程助手仅能访问其需要的最小权限。例如,可以限制其访问特定的代码库、分支或文件夹,以减少潜在的风险。监控和审计:定期监控和审计 AI 编程助手的使用情况,确保其符合您的安全和合规要求。如果发现任何异常行为,立即采取相应的措施。InfoQ:您如何看待这些工具在训练过程中可能出现的数据泄露风险?汪晟杰:首先,AI 编程助手通常使用大量的开源代码库进行训练。虽然这些代码库本身是公开的,但在训练过程中可能会捕获到一些敏感信息,如 API 密钥、密码等。因此,训练过程中需要对这些潜在的敏感信息进行清理和过滤;其次,由于 AI 模型在训练过程中可能会学习到一些敏感信息,因此在使用模型生成代码时,有可能泄露这些信息。应用端需要针对这类问题,采用技术手段,以增加兜底逻辑,即模型训练过程中数据的隐私问题,可以由应用端做针对性的过滤。最后,用户教育和意识:对于使用 AI 编程助手的开发者,提供培训和意识教育,以确保他们了解如何在使用这些工具时保护敏感和私有的代码数据。这包括遵循最佳实践,将敏感信息从代码中分离等。InfoQ:有哪些最佳实践可以帮助企业在利用这些 AI 工具时确保代码安全和隐私保护?汪晟杰:一方面是用户开发习惯,在让模型基于上下文推理的时候,他会模仿你的习惯,所以将敏感信息从代码中分离,在代码库中引入代码扫描,实时监听代码生成质量。另一方面是给予仓库代码更小范围,比如我只需要把主要描述的 Readme 文件、接口文档、核心代码的实现类等作为 RAG 的来源,或者在补全上找到核心调用链的相关函数及文件。-104-大模型领航者AIGC 实践案例集锦对开发者角色的影响InfoQ:AI 工具在接管一些编程任务后,您观察到开发者的角色有哪些实际变化?汪晟杰:有三方面的影响,首先是更高层次的抽象:开发者可能会从处理底层代码转向处理更高级别的抽象,例如设计软件架构、优化数据结构和算法等。这将使 AI 代码助手能够更有效地理解并模仿生成;其次是更全面的技术点:有了 AI 助手后,后端也会写前端代码,在做一些短平快的项目时,一个产品和一个技术可以分工完成,相比之前的开发效率是大大提升;最后当然是开发习惯的变化:以 IDE 为平台,以 AI 为内核,以对话为切入,以编码质量为验收,会是开发者在日常编码中的另一个自己的数字人InfoQ:这些变化对开发团队的结构和工作流程有何影响?汪晟杰:我认为团队会更扁平,技术同学也不会再抗拒新的某种技术和语言。上手门槛变低了,获取知识的速度提高了,解决问题的方式多样化了。在工作流程中,学习提示词,摸透大模型的习性,会是工作中不可缺少的一部分。逐步上手后,会产生极大粘性。腾讯内部我们的产品的留存率是非常高的。InfoQ:您认为 AI 工具将如何影响软件开发行业的就业趋势?汪晟杰:大概有以下几个方面。自动化低级任务:AI 工具可以自动化许多重复性和低级别的编程任务,如 CRUD 的代码生成、SQL injection 错误检测和修复等。这可能导致对于那些主要从事这些任务的初级开发人员的需求减少。提高生产力:通过自动化一些任务,AI 工具可以提高开发者的生产力。这意味着开发团队可能需要更少的人员来完成相同的工作量。然而,这也可能导致对高技能开发人员的需求增加,因为他们可以更好地利用这些工具。AI 化转型和咨询:随着 AI 工具的普及,软件开发人员可能需要学习新技能和知识,以适应不断变化的技术环境。这可能包括学习如何与 AI 工具合作,以及掌握新的编程范式和技术。AI 产品化的创新:随着 AI 工具接管一些基本任务,开发者可以将更多精力投入到创新和创意上。这可能导致对具有创新思维和能够开发新产品和服务的开发人员的需求增加。与大模型及算法的紧密合作:AI 工具的发展可能导致业务要与大模型及算法团队的合作更加紧密。新的就业机会:虽然 AI 工具可能导致某些角色的需求减少,但它们也可能创造新的就业机会。-105-对话先行者洞见新未来例如,随着 AI 技术的发展,可能会出现新的专业领域,如 AI 伦理、AI 系统监管等。总之,AI 工具将对软件开发行业的就业趋势产生深远影响。虽然某些角色可能受到冲击,但整体上,对具有创新思维、高技能和跨领域知识的软件开发人员的需求可能会增加。为了适应这些变化,开发人员需要不断学习和更新技能,以保持在行业中的竞争力。InfoQ:对于软件开发者来说,他们应该如何准备和适应这种由 AI 带来的变革?汪晟杰:首先学习 AI 和机器学习基础知识:开发者应掌握 AI 的基本概念、原理和技术,了解机器学习算法和数据科学库(如 TensorFlow、PyTorch 等),这将有助于他们在开发过程中更好地利用 AI 技术;其次,关注 AI 领域的最新发展:关注 AI 领域的最新研究成果和行业动态,了解 AI 技术在各个行业的应用案例,以便了解哪些技术可以应用到自己的项目中;当然,提高编程技能也不可或缺:AI 技术的发展对开发者的编程能力提出了更高的要求,因此开发者需要不断提高自己的编程技能,熟悉各种编程语言和框架,如 Python、Java、C 等;最后是学会与 AI 合作:开发者需要学会如何与 AI 系统合作,理解 AI 系统的优势和局限性,以便在开发过程中充分发挥 AI 的潜力。嘉宾介绍汪晟杰,腾讯云 产品专家,历任阿里高级技术专家,从事钉钉云效核心业务线、Teambition 合伙人、Autodesk 首席软件架构师、十多年 SAP 云平台、SuccessFactors HCM、Sybase 数据库、PowerDesigner 等产品的开发经理,在软件架构设计、产品管理和项目工程管理、团队敏捷提效等方面拥有近 20 年的经验。扫码分享文章-106-大模型领航者AIGC 实践案例集锦极客时间是数字人才的在线学习平台,通过 PGC 专业内容生产模式,由极客时间教研团队与一线技术专家共同打造,涵盖 70 类技术领域。平台提供沉浸式深度学习功能,并通过社群、直播、部落等多种方式,让用户可以与行业大牛零距离交流学习。数字人才的移动知识库精心设计的文章排版,个性化的阅读风格,为你打造沉浸式学习体验。你可以使用划线、评论、收藏的功能进行深度学习,也可以在碎片时间听音频,看视频。沉浸式学习体验极客时间提供了留言、社群、直播等方式,为用户和专家建立了紧密的连接。用户可以与专家交流学习心得,探讨技术问题,获取成长的最佳路径。连接用户和专家的桥梁精品体系课名师出高徒 技术案例视频聚焦解决业务难题 学习路径系统性学习进阶 小时课程为用户打造随身图书馆30017005700 17条 扫码关注极客时间官方公众号课程涵盖大前端、后端、架构、大数据、运维、人工智能、测试、产品、管理、计算机专业课,全面覆盖 IT 从业者全职业生命周期知识技术图谱,帮助用户全方位系统化提升工作能力。技术领域广泛覆盖用户通过学习统计功能查看自己的学习轨迹和学习进度,可以参加作业和考试,验证自己的学习成果。学完一门课程可以获得平台颁发的电子结课证书和结课奖励金。学习反馈和成果奖励-107-对话先行者洞见新未来第三章:垂直行业嘉 宾|刘升平,云知声 AI Labs 研发副总裁作 者|高卫华,InfoQ 编辑当下极为火爆的大模型,在医疗赛道同样炙手可热。谷歌刚刚发布了准确率达 91.1%、性能远超 GPT-4 系列的多模态医学大模型 Med-Gemini,国内市场亦很热闹。自 2023 年以来,百度、腾讯、京东等诸多大厂都相继加码医疗大模型领域,与医疗相关的大模型产品和应用如雨后春笋般正不断涌现出来,其中更不乏 AI 和医疗企业的手笔。目前,已有部分医疗大模型产品投入到导诊、预问诊等医院场景中。然而,医疗大模型虽有一定潜力,但现阶段仍有不少要跨越的落地门槛。为此,InfoQ 对云知声 AI Labs 研发副总裁刘升平进行了专访,听他聊一聊现阶段医疗大模型的商业化能力,以及面向这类应用场景的行业大模型该如何定制优化。以下为访谈实录,经编辑。巨头们涌入的医疗大模型,何时迎来最好的商业时代?“-108-大模型领航者AIGC 实践案例集锦医疗大模型距离商业化有多远?InfoQ:现阶段,医疗大模型要规模化落地还面临哪些现实问题?刘升平:主要的问题还是有不少,首先是医生和患者的接受度,特别是有些场景要改变医生的使用习惯。还有一个问题是大模型的部署成本,如果在院里大规模并发使用医疗大模型,硬件成本会比较高。InfoQ:“幻觉”的偶发出现是大模型目前公认的一个问题,医疗场景对准确度要求会更高,山海在这方面是怎么做的?刘升平:“幻觉”的确是核心要解决的问题,我们采用多种手段从多方面降低幻觉,包括保证医疗预训练语料和微调数据的质量和多样性、采用能降低知识幻觉的解码策略、融合医疗知识图谱的知识增强大模型技术、医疗知识检索增强、大模型结果后校验、大模型输出置信度评估等。InfoQ:您认为哪一个评价标准最能代表医疗大模型的水平?刘升平:临床有效性是最能代表医疗大模型水平的关键评价标准,包括模型在实际临床环境中的诊断准确性、治疗建议的合理性以及与专业医生的决策一致性。此外,模型的鲁棒性、泛化能力、可解释性、用户友好性、数据隐私保护以及合规性也是重要的评价维度。然而,临床有效性直接关系到患者的安全和健康,因此如果把医疗大模型应用与临床实践中,它可能是最重要的评价标准。InfoQ:现在行业内有您认为还不错的其他医疗大模型产品吗?国内外均可。刘升平:除了云知声的山海大模型医疗版,最近看到的是谷歌的多模态医疗大模型 Med-Gemini,在多项临床任务评测中都表现很好,但还没有在医院得到广泛使用。InfoQ:在医疗大模型的技术实现、应用效果以及成本部署上,国内与国外有区别吗?刘升平:没有显著区别。InfoQ:您认为医疗大模型真正迎来商业化时代还需要多久?刘升平:预计 2-5 年吧。今年是医疗大模型的应用元年,有部分医院开始尝试一些医疗大模型的应用,随着这些医院推广与积累医疗大模型应用经验,预计医疗大模型会在 2-5 年内进入更广泛的商业化阶段。-109-对话先行者洞见新未来山海大模型的实践经验InfoQ:医疗相比其他场景更复杂且严谨,难度自然也不小,驱动云知声选择在这一领域开发大模型的最重要因素是什么?刘升平:云知声选择在医疗领域开发大模型,主要有两个关键因素。一是应用潜力,而医疗领域是一个富文本、富知识的行业,并且医疗大模型在处理医疗病历文书、辅助诊断、药物研发等方面展现出巨大潜力,因为医疗领域是一个很适合大语言模型技术的应用领域。此外,医疗 AI 市场具有巨大的商业价值,随着技术的成熟和接受度的提高,未来有望形成规模化的商业模式。二是专业积累,云知声深耕医疗领域多年,对医疗业务场景有深入的理解,在医疗数据和医疗 AI 技术有深厚的积累,也积累了数百家的医疗客户,这有助于医疗大模型的研发和商业化推广应用。InfoQ:大模型训练过程本身就对数据质量有较高要求,医疗领域的数据则更为特殊,还具有隐私保护、专业知识复杂、经验化知识难以结构化等难题,山海是如何克服的?刘升平:山海医疗大模型在训练过程中面临数据质量、隐私保护和专业知识复杂性等挑战,我们采取了两种策略来克服这些问题。一是数据清洗与预处理,对收集到的医疗数据进行严格的清洗,去除噪声和不一致的信息,确保数据的准确性和一致性;同时使用专业的医疗知识进行预处理,如标准化术语等。二是匿名化与脱敏,在遵守相关法规的前提下,对个人健康信息进行匿名化和InfoQ:社会接受度上,如何让大众认可大模型的诊断或治疗方案?刘升平:要让大众接受并信任大模型的诊断或治疗方案,是一个长期的过程,要考虑很多方面。第一,要提高模型的决策过程透明度,提供可解释的输出,让用户理解模型是如何得出结论的。这有助于建立用户信任,尤其是对于医疗决策这样敏感的问题。第二,要有严格的临床试验,证明模型的诊断或治疗方案与专业医生的判断相当或更优,且这些结果应由独立的第三方机构审核并公开。第三,要让医生参与到模型的开发和应用中,他们可以提供专业知识,确保模型的输出符合医学实践,并在实际应用中监督和调整。第四,要开展公众教育活动,解释人工智能在医疗领域的潜力和限制,消除误解,提高公众的理解和接受度。通过这些措施,应该可以逐步提高社会对大模型在医疗领域应用的接受度和信任度。-110-大模型领航者AIGC 实践案例集锦脱敏处理,以保护患者隐私。InfoQ:使用开源数据集可能出现产品同质化现象,山海在数据资源方面是如何使用的?刘升平:云知声在开发山海医疗大模型时,采取了多种策略来避免产品同质化,确保模型的竞争力。第一,我们使用了不少专有数据集,即云知声多年的医疗业务积累的大量内部医疗数据。这些专有数据可以提高大模型在特定场景的应用效果。第二,我们采用了一些数据增强技术来自动生成训练数据,例如,通过数据合成、噪声注入、标签变换等技术,增加数据的多样性和复杂性,使模型在不同条件下表现更为全面和鲁棒。第三,我们还与医疗专家合作来确保医疗数据的准确性和专业性,同时利用专家的知识来指导数据的预处理和标注。通过这些策略,云知声的山海医疗大模型能够与只使用开源数据集训练的大模型有显著区别,并且在面向具体的医疗场景应用时有更好的效果。InfoQ:云知声的山海医疗大模型主要做了哪些场景?目前哪个场景的应用率最高?哪个场景能算作山海的“杀手锏”?刘升平:对于云知声的山海医疗大模型,主要做了以下场景:病历生成:包括基于医患对话的门诊病历和出院小结、手术记录生成等住院病历的生成,以及放射科报告生成等医技科报告。病历质控:对住院病历(包括病案首页)做过程和终末质控,支持 1000 形式和内涵质控点,大幅提高病历的质量。单病种上报:对国家卫健委要求的 57 个病种做自动数据汇集及上报。医保控费:按照医保局的规范,监管医院的临床诊疗行为和收费合理性,确保医疗费用的合规。保险理赔的医疗审核:审核在保险理赔中涉及到的医疗费用,剔除不合理费用。专病库平台:将病历等临床数据自动抽取和导入到专病库。智能问诊:作为 AI 医生,与患者进行对话,收集症状,并提供初步的健康咨询和建议。目前,山海应用率最高的场景是病历生成、病历质控和保险理赔的医疗审核。结合云知声在语音技术上强项开发出的门诊病历生成系统,结合云知声在医疗知识图谱的积累开发的病历质控系统和保险理赔医疗审核系统均可以视为“杀手锏”场景。InfoQ:针对于山海医疗大模型,您更推荐医疗机构采用哪种部署方式落地?具体是如何考虑的?刘升平:云知声的山海医疗大模型在医疗机构的部署通常有以下两种方式:云端部署和私有化部署。至于选择哪种部署方式,主要考虑几个因素吧。一是如果医疗机构对数据安全有极高要求,那就倾向于私有化部署。二是考虑成本与资源,云端部署通常成本较低;私有化部署初期投入大,但长期运营成本可能更低。InfoQ:现在市面上的医疗大模型不少,国内有-111-对话先行者洞见新未来许多大厂也在做,山海的独特之处是什么?刘升平:这和云知声做医疗大模型的动机是一样的,山海医疗大模型的独特之处主要有两点。一是在专业领域深度方面,云知声专注于医疗领域,有深厚的数据、知识、场景和客户积累,这使得山海医疗大模型在效果上业内领先,目前在医疗大模型综合评测 PromptCBLUE 和 MedBench 上都是排名第一。二是在技术融合方面,结合云知声在语音识别和医疗知识图谱技术的专长,山海医疗大模型在语音交互式医疗应用上具有优势,且在临床应用上的医疗知识幻觉也大为减少。嘉宾介绍刘升平,云知声 AI Labs 研发副总裁,北京大学数学学院博士毕业,是前 IBM 中国研究院资深研究员,中文信息学会语言与知识计算专委会委员。曾在语义网,机器学习、信息检索,医学信息学,自然语言处理等领域发表过数十篇学术论文和国际国内发明专利。在 IBM 中国研究院信息与知识组工作期间,刘博士主要负责语义技术及其应用的研发,曾多次获得过 IBM 研究成就奖。2012 年底,刘博士加入云知声 AI Labs,领导认知智能团队,负责大语言模型、知识图谱和智慧医疗等方面的研发及管理工作。在云知声期间,主持研发了山海大模型,获得国内外 AI 评测冠亚军 13 个,获得北京市科技进步奖一等奖一项。扫码分享文章-112-大模型领航者AIGC 实践案例集锦演 讲|郭家,图灵机器人 COO编 辑|傅宇琪,InfoQ 见习编辑 褚杏娟,InfoQ 编辑策 划|蔡芳芳,InfoQ 主编人工智能正在深度重塑教育领域,驱动着教学模式,尤其是个性化学习的革新。作为一家以语义和对话技术为核心的人工智能公司,图灵机器人用高精度 AI 知识问答、中英文语法纠错、图文识别等技术为教育行业赋能。自 2023 年起,图灵机器人用大模型逐一替代了 CNN 模型,并创新了 AI 口语老师、阅卷 AI 助理等应用,在步步高、作业帮等产品上应用上线并取得不错效果。在用大模型重构产品的 1 年时间里,该公司对面向成本设计产品、大模型的“能与不能”都有了深度思考。本文整理自图灵机器人 COO 郭家在 QCon 2024 北京的演讲分享“教育大模型,说你行你才行”,拆解这段产品重构之路,并以实际案例,分享其中的辛酸苦辣。本文由 InfoQ 整理,经郭家老师授权发布。以下为演讲实录。AI 老师的强大功能 真人老师的情感交流=未来教育?“-113-对话先行者洞见新未来我们是谁图灵机器人公司专注于教育行业,已经发展了将近 15 年。在这个过程中,我们见证了许多变化,并从传统模型逐步进化到大模型。公司的 LOGO 是对图灵机器人的致敬,我们于 2017 年获得了图灵后人詹姆斯图灵以及英国皇家社会协会的肖像授权。2019 年,我们还成为了图灵基金在中国的唯一合作伙伴。由于公司注册较早,图灵现在已成为专有名词,无法再次注册。我们的团队成员大多来自交大系。我们的 CEO 是交大数学系毕业,一直从事人工智能和复杂决策系统的工作,CTO 老韦也是交大数学系出身,首席科学家何小坤曾是好未来 AI lab 的负责人,在双减政策实施后来到我们这家人工智能教育公司,石勇教授是中科院的合伙科学家。我们的投资机构特色鲜明,全部是战略投资人。他们对公司的持续经营和帮助已经持续多年,也不急于退出。我们的天使投资人是赛富的创始合伙人羊东。我们还是微软在中国的第一家创投企业。此外,我们的股东还包括 HTC、奥飞动漫和洪恩教育。-114-大模型领航者AIGC 实践案例集锦公司上一次推出的 AI 产品名为虫洞语音助手,对于互联网的资深用户来说,可能对这款产品有所耳闻。我们从 2010 年开始研发并发布了这款产品,它最初是为塞班手机和黑莓手机设计的语音助手。当时,苹果公司尚未收购 Siri。随着苹果在 iPhone 4 发布期间推出 Siri,语音助手这一领域迅速变得热门,我们的用户数量也迅速增长,接近 2000 万。在开发过程中,我们一方面专注于自己的产品,另一方面与 HTC 建立了合作关系。HTC 是安卓系统的第一款手机制造商。我们与 HTC 合作开发了小 hi 机器人,也就是小 hi 语音助手。该产品上线时拥有 100 多种虚拟人表情,400 多种技能,包括 200 多个 CP 和 SP 的接入。我们的许多技能都是与后方的 CP 和 SP 合作实现的,例如,查询天气功能与中国天气网合作,餐饮推荐则与点评网站合作。然而,尽管用户基数庞大,语音助手的前期活跃度也不错,但将其商业化却非常困难。直到现在,手机上的语音助手仍然面临这一问题。因此,面向消费者的业务模式(to C)并不适合当时的产品。基于这一认识,我们决定将这个创业项目出售给 HTC。随后,我们开始了第二次创业。第二次创业,我们转向了 AI To B 业务,即面向企业的人工智能服务。2014 年,我们将产品卖给 HTC 后,决定将这些技术转化为一个开放平台,主要面向开发者开放。平台吸引了超过 100 万的开发者,每天都有上百的开发者加入,他们主要利用以自然语言处理(NLP)为核心的语音助手相关产品。2016 年,我们发现对于一家创业公司来说,儿童教育是一个需求量大、适合快速增长的领域,于是开始专注于教育领域。在 2017 年和 2018 年,我们有幸邀请到了包括我的师妹,MIT 博士贾梓筠在内的人才,一起参与这个项目,那年公司业务突破 1000 万营收。到了 2019 年,我们开始将视觉技术纳入我们的产品和服务。在教育领域,视觉技术的需求甚至超过了语音技术,例如题目识别、图片和文字识别、绘本和图画识别等,这些都需要计算机视觉(CV)技术来完成。公司有五条主要的业务线。首先,进校业务方面,我们正在开发中高考英语口语模考系统,这种口语模考系统特别适合利用大模型技术。我们有教案的 AIGC 助手,它帮助老师生成教案,可以插入图片或精彩案例,甚至可以适时地加入一些幽默段子,让课程更加生动有趣。我们还提供大模型实验课,让学生亲自操作,测试 prompt,并使用 RAG 工具进行训练。在出版领域,我们主要面向教辅公司和出版社,提供 AI 英语出题、AIGC 动画课等服务。此外,我们还涉足古籍、古典和学术研究领域,同样利用 RAG 技术进行数据挖掘。运营商业务方面,我们提供 4G 电子产品,如自动翻译扫描笔、能够识别绘本和教材的台灯,以及用于口语测评方案的学生证和学生卡。电教领域是我们公司历史最悠久、壁垒最深厚的-115-对话先行者洞见新未来业务之一,市场份额高达 80%。在这个领域,我们提供的服务包括语音助手、口语老师、作文批改以及翻译相关算法,如指尖翻译、手写体翻译和印刷体翻译。最后,在汽车领域,我们为儿童领域提供重要的平台。从去年开始,新能源汽车如理想汽车推出了“小主人模式”,后排的小主人座舱需要语音助手来承载趣味内容和知识性互动。我们配套的小助人语音助手,包括音乐版权、分级阅读版权和词典版权,为儿童提供丰富的车内互动体验。大模型产品的第一步是 Cost Down去年公司正面临大模型带来的成本压力。我们已经将许多算法商业化多年,但随着时代的发展,如果不追求大模型的发展,否则就可能被时代淘汰。要追赶大模型,我们需要考虑如何将旧算法相比小模型时代,成本是做大模型的新主题-116-大模型领航者AIGC 实践案例集锦与大模型过渡。直接将大模型引入市场,初期成本非常高。尽管图灵公司自我造血多年,但大模型的投入仍然巨大。有下述几种情况需要考虑降低成本:1.自己研发或使用开源的大模型,这对算力要求很高,所有资源都需要自己提供。2.为企业提供大模型服务,如进校或教育部的大模型私有化部署,学校对数据安全和隐私有严格要求,不希望竞争对手获取他们的原创内容,因此要求大模型必须私有化部署并本地训练。3.大量使用第三方大模型,如按 tokens 结算的方式,初期试用成本可控,但一旦商业化,成本迅速上升,如我们之前使用 GPT 大模型接口,每月投入可达三四十万,对单个客户而言,一年几百万的成本难以承受。4.端侧芯片层的大模型运行,如高通在最新芯片上运行大模型,预示着未来手机等设备将有本地大模型支持。5.开源大模型的趋势,如通义、百川等公司开源大模型,目的是让更多人使用,甚至自己运行大模型,从而推动云服务的销售。未来,购买算力可能等同于购买云资源。此外,服务器情况有所变化。2023 年相比 2022 年,价格明显上涨超过 50%。2023 年 5 月的禁令前后价格也有所不同。但在 2024 年,云服务价格下降了约 20%,目前云算力和消耗量处于可控范围内,这与服务器资源逐渐变得更加充裕有关。-117-对话先行者洞见新未来我们的产品图灵 AI 口语老师已经推出了三个版本。C 版本是我们利用大模型技术所开发的版本,它在资源消耗方面是三个版本中最低的。右侧的图表展示了我们对成本的测算,这意味着,通过采用大模型技术,我们能够在保持产品质量的同时,有效控制成本。C 版本口语老师用于在创作话题时,生成 AB 角的对话场景。生成对话后,系统会基于预设的预训练脚本来执行对话,重点在于发音的评测,而非表达的正确性。B 版本的口语老师在用户每次提问时都会调用大模型进行多种识别,包括语法、地道表达、对话相关性以及句子润色等,因此大模型的调用量非常大,消耗量级也随之增加。我们制作的大多数儿童产品的成本相对较低,可能只有几百元,甚至一百元以内。因此,在儿童电子产品上,大模型的成本是相当高的,难以承受。我们尝试了多种运营方法来进行二次转化,以降低成本。我们如何做大模型降本-118-大模型领航者AIGC 实践案例集锦A 版本口语老师的最大特点是教案虚拟人。虚拟人如何表达得好,关键在于情感识别。我们最初展示的口语老师形象被孩子们吐槽,因为许多学生认为这位老师给人一种压迫感,不想与其对话交流。因此,我们后来采用了更多二次元、卡通的形象。这里增加了两个成本,一是虚拟人的调用成本,二是大模型中虚拟人的情感识别成本。-119-对话先行者洞见新未来目前,我们对大模型的降本措施分为三大步,共六小步。1.第一步是数据标注的降本。我们采用的方法是使用优质的大模型来生成训练数据,例如让 GPT 直接生成训练数据,这样可以轻松生成高质量的数据。2.第二步是算力补贴。由于我们公司是专精特新的企业,我们申请了很多国家的补贴,这有助于降低成本。3.第三步是 GPU 端的优化算子。我们与一些服务器公司,包括华为、阿里等,合作进行服务器端的优化。GPU 本身不变,但我们基于开发者模式进行自己的服务器优化,性价比非常高。4.第四步是加速框架,这是算法层的框架优化。5.第五步是大小模型混合。例如,我们要查天气,所有的语义槽位,如城市、日期等,这些可以直接用小模型处理,其精准度远高于大模型。用大模型做意图识别,然后将确定性的意图分流到 NLU 上,还有一些用大模型来兜底,这样成本会大幅下降。6.第六步是混合专家模型。我认为这适合除了基座公司以外的所有公司。要提高准确率,就需要将领域限制得更窄,知识库限制得更窄,这样才会更准确。-120-大模型领航者AIGC 实践案例集锦试错一年终落地在过去一年多的时间里,我们对图灵 AI 口语老师产品进行了试错和迭代。投入成本主要分为几个部分。1.数据标注:这是成本中相对较小的一部分。由于我们长期从事语音助手的开发,已经积累了大量的数据,数据清洗和为大模型缓存数据还是非常高效的。2.算力成本:算力成本并不高,因为产品尚未大规模推广,用户量增长有限,因此推理成本保持在较低水平。3.算法重构:这是成本中较大的一块。随着大模型技术的发展,我们必须将所有的小模型算法用大模型重新开发一遍。不仅涉及到技术层面的重构,还包括算法工程师的转型和后台服务、产品测试的重构。4.商业化成本:这是最大的成本部分。市场营销和应用层开发人员的投入非常巨大,尤其是在产品推向市场的过程中。作为教育公司,我们还必须购买大量正版内容。这不仅是因为训练需要,还因为在儿童教育领域,版权保护非常重要。拥有知名 IP 的版权内容能够带来溢价,家长更愿意为知名品牌的教育产品付费。我们的口语老师的第一个版本是一个名为 Free Talk 的 AI 外教产品,大约在去年 5 月份左右,我们推出了这个版本。这个产品受到了 OpenAI 发布的一个名为 Call Annie 的产品的启发,Call Annie 是一个大头人像,能够进行英文交互。这个产品有几个特点:首先,它呈现为一个大头形象,给人一种面对面交流的感觉;其次,它进行全英文交流,不掺杂中文,模拟一对一外教的体验,并主打一对一外教的理念。然而,在推广一段时间后,我们发现在实际使用中,无论是孩子还是成年人,都很难主动开口说话。即使有真人外教与孩子互动,孩子们也难以开口,不知道要说什么,也不会说。这导致 AI 外教很难带动孩子们进行对话。此外,大模型在与孩子们交流时容易“超纲”。孩子们可能只学了一些非常简单的词汇,如 Whats this?Its a bottle.,但如果让大模型反问,可能会提出很长、很复杂的问题,这让孩子们难以接受。我们如何做产品迭代-121-对话先行者洞见新未来在口语老师的第二个版本中,我们采取了不同的策略来解决孩子们不知道如何开口的问题。这个版本有几个关键点。专属陪练:基于孩子们的回复虚拟老师会进行个性化回复。话题引导:我们设置了一些孩子们熟悉的学习主题,在这个范围内引导孩子进行回答,例如开学或者交朋友的场景,并基于这些场景与孩子进行互动。这种方法可以帮助孩子们更好地融入对话,并激发他们的表达欲望。推荐回复:如果孩子在对话中不知道如何回答,我们会提供一些建议性的回答。这些建议是由大模型自动生成的,可以帮助孩子学习如何表达,并引导他们更顺利地参与到对话中。每个人的学习情况和英语掌握水平都不尽相同,即使是在有设定话题的情况下,不同学生可能会觉得内容太简单或太难。因此,我们接下来要针对每个学生的个性进行优化。个性化学习的关键在于分析学生的开口数据,观察他们的兴趣度和意愿度。同时,还要考虑学生回答的准确率,以及他们对提示语和推荐语的使用率。这些因素都是影响个性化学习效果的重要指标。第二个版本-122-大模型领航者AIGC 实践案例集锦在口语老师的开发中,第三点关键因素是教育教学体系的构建。我们生成的场景话题,无论是用于学校教育的打招呼场景还是开学场景,背后都有一支教研团队的支持,而最坚实的支撑来自于优质的教材。以牛津树分级阅读为例,我们可以看到即使是像 VIP Kid 这样的真人外教一对一教学产品,其背后也不仅仅是外教的教学,还包括了一套教学方法和教案。外教会使用画板和教案,如牛津的Lets Go系列,一步步引导孩子学习。我们利用 RAG 技术来学习并生成课程内容,RAG 在生成基于问答的内容方面非常擅长。我们首先生成一些问答内容,然后对这些内容进行加工,使其成为课程教学的一部分。这样的学习方式可以实现分级教学,根据学生的不同年级和水平来筛选话题的难度。此外,尽管现在的 TTS 技术已经非常先进,但它仍然无法完全复制真人发音时的抑扬顿挫和适当的语速与停顿。因此,我们选择使用原版真人发声的内容,让孩子能够复述真人的发音,以此来提高学习效果。我们还加入了真题练习,选用了与优质教材相配套的练习题。目前,使用 AIGC 技术生成的题目效果尚不理想,因此我们直接采用了教材中原有的配套习题。这些迭代和改进,都是口语老师产品不断进化的一部分,旨在提供更加个性化、系统化和有效的教学体验。在口语老师的第三个版本中,我们实现了商业化的显著进展。这个版本主要针对中高考的口语模考,提供了一个全真的模拟考试环境。这个环境从孩子试音、试麦克风开始,到试听题目,再到正式进行考试,完全模拟了真实考试的各个环节和流程。过去的口语模考打分准确率较低,常受到老师们的诟病。现在,大模型在语法打分上的准确性大幅提升。例如,在听一段短文后回答有关问题时,大模型不仅考察语法是否正确,还要看是否准确回答问题,以及答案是否与题目相关,角色、动作和时间是否匹配。这些通过传统算法难以实现的点,大模型都能很好地完成。从 2025 年开始,中国所有的中高考口语考试打分可能都会采用大模型技术,这将是一个解决痛点的质的飞跃。这也是商业化落地中一个难得的、能够快速推进的点。最后一个特点是真题题库的应用。教育离不开版权,我们必须购买各省市的真题和模考题库。这些题库不仅涉及版权问题,而且出题人的思路独特,我们尝试过用 AIGC 技术模仿出题人的思路,但效果并不理想。如果替代率达不到一定水平,那么使用 AIGC 节省的工作量就非常有限,因此我们选择直接使用教材中的原题。第三个版本-123-对话先行者洞见新未来在国外,大模型口语老师产品有几种不同的做法,这里分享几个例子。首先是 Yanadoo,这是一款来自韩国的产品,其母公司是韩国最大的互联网教育公司。Yanadoo 的特点包括:十分钟教育系统:提出每堂课只需十分钟,强调短时间内高效学习。奖学金激励:通过奖金激励学生。一对一 AI 语音指导:提供一体化的 AI 指导服务。游戏化学习:利用游戏化元素和奖金刺激,让学生在 10 分钟的高强度专注训练后,通过与 AI 老师练习并获得积分,以此提高学习效果。大模型应用:主要用在口语纠错上,提升学习精准度。第二个产品是 Ainder,这是一个社交产品,其特色在于:AI 虚拟人社交:所有的社交对象都是 AI 虚拟人,每个虚拟人有不同的背景和人设。个性化学习:用户可以与来自不同国家、不同口音和兴趣爱好的 AI 虚拟人进行英语交流。共同兴趣:通过聊用户感兴趣的话题,比如 NBA 球星和术语,提高语言学习的兴趣和效果。多语言者学习方式:该方法与一些多语言者通过与外国人聊天学习外语的方式相似,提供了一种自然的交流环境。第三个产品是 Speak,这是一个 OpenAI 投资的教育公司,其特点为:真人录播课:结合真人教学和 AI 技术,真人负责上课,AI 负责作业。AI 作业:AI 用于听说读写作业的自动纠错和分析,包括发音、语法和词汇。会员收费:虽然收费较高,但提供了高质量的学习体验。产品评价:产品设计精良,无论是学英语还是其他外语,都获得了很高的评价。第四个是多邻国,一个广为人知的平台,它在 GPT 3.5 发布时就是合作伙伴之一。多邻国采用的大模型用于:Explain My Answer:对用户的回答进行纠错和分析。Roleplay:在有限域下进行对话交互,让用户与 AI 进行 Free Talk 练习。第五个产品是 Call Annie,一个提供随时视频通话的美女形象的产品,App 界面就像电话一样,提供交互体验。最后一个是 CheggMeta,可以说是美国版的作业帮,它强调:课后作业指导:专注于孩子回家后的作业指导。自适应学习:根据孩子的学习情况调整下一步的学习计划。与国外产品几种不同设计理念对比-124-大模型领航者AIGC 实践案例集锦总结来说,国内外在 AI 口语老师产品上的思路存在一些不同点。国内 AI 口语老师产品的 1.0 版本在功能上大体相似。尽管每家公司都在训练自己的模型,影响体验最大的因素是模型训练的强度和精度。国外产品的 1.0 版本普遍基于 GPT,因此在智能度上几乎一致。不同产品之间的主要区别在于各自的教学理念。例如,有的产品采用 10 分钟教学法,有的通过社交方式学习,有的结合真人录播课,有的游戏化学习,有的通过虚拟形象进行互动,还有的专注于作业辅导。国内外产品在教学理念上有明显的差异。国外产品展现了多样化的教学理念,而国内产品可能在未来会根据自己的理念逐渐分化。在英语学习的口语老师应用中,每家公司至少都会设计一个虚拟人物头像,这是虚拟人的最基本表现形式。一些公司则更为复杂,将视频录制与虚拟人制作相结合。即使是较为简单的应用,也会加入虚拟人物头像,以增强用户体验。虚拟人的表达和人的情感连接是非常重要的一环,它与大模型技术有着天然的强关联性。在移动互联网行业中,我们常会提到“杀手级应用”,而对于大模型技术来说,虚拟形象很可能成为杀手级应用中的核心要素。这是因为虚拟形象不仅能够展示背后的价值观、人设和情感,还能通过其形象与用户建立联系。-125-对话先行者洞见新未来大模型的“行与不行”大模型在教育板块的应用存在一些问题,同时也有其不擅长的领域。课程设计不行:大模型缺乏教与学的体系支撑,无法独立进行课程设计。课程设计需要明确的目标、大纲和学生学习进度等,而大模型目前还达不到这样的要求。解题能力不行:尽管有报道显示大模型通过了某些考试,但实际上在教育领域的测试中表现并不理想。以高考为例,准确率普遍低于 60%,小学五年级的准确率低于 85%,只有一二三年级的情况还算可以。出题能力不行:大模型能出题,但题目套路明显,缺乏创意。现代中高考题目,特别是北京、上海等地的试卷,已经从传统的选择题、完形填空转变为应用题,要求考生解决实际问题,这需要综合能力。大模型目前还无法满足这样的出题要求。讲题能力不行:大模型在讲解题目时可能会出现问题,可能会“胡说八道”,即使给出正确答案,其解释过程可能会越来越偏离正确方向,最终虽然得出正确答案,但教学场景中这样的讲解是不可接受的。-126-大模型领航者AIGC 实践案例集锦大模型在教育领域的优势体现在以下几个方面:阅读领域:大模型在阅读领域的表现是令人满意的。RAG 的应用在这方面尤其出色,它能够增强模型对信息的检索和生成能力。大模型被成功应用于基于学习材料的自动互动场景。这种应用通过与学习材料的结合,提供了自动化的、互动式的学习体验,这在当前教育技术中是一个非常好的方向。微调和再训练:在使用大模型时,我们发现了一个令人惊艳的现象:与小模型相比,大模型在再训练时所需的数据量显著减少。例如,在口语老师的语法纠错功能中,原本需要 10 万到 100 万级别的数据量,而大模型仅需要很少的数据量就能训练出非常好的效果。大模型在教育领域的应用还包括过程监督式的方法。通过过程监督,可以显著提升大模型在解题方面的准确性,有望快速解决解题不准确的问题。此外,我认为未来一两年内,教育领域将面临一个重要的改革和转型理念,即真人与 AI 老师的结合。在这个模式中,真人教师的角色是组织教学活动和建立情感联系,而 AI 老师则充当工具型的角色,提供无所不能的知识支持。这种结合利用 AI 的强大功能,同时保留真人教师在教育中不可或缺的人文关怀和情感交流。扫码分享文章-127-对话先行者洞见新未来嘉 宾|张源源,百姓车联数据科学与数据平台高级总监编 辑|李忠良,InfoQ 编辑大模型已经融入千行百业,在这个背景下,LLMOps 作为一种新概念,其定义、实践以及应对挑战成为了关注焦点。为了深入探讨 LLMOps 的意义和关键,我们采访了百姓车联数据科学与数据平台高级总监张源源,他分享了 LLMOps 在车损互助案例中的应用以及所面临的挑战与解决方案。以下是访谈实录。InfoQ:现在其实大家 MLOps 都还没有搞得特别好,马上就出来了 LLMOps,当然也就没有特别标准的定义,在您看来 LLMOps 如何定义?它包含哪些内容?LLMOps 与 MLOps 您觉得两者较大的区别是什么?张源源:简单来说,如下图所示。4 人团队,如何用大模型创造近千万业务价值?“-128-大模型领航者AIGC 实践案例集锦MLOps 用于管理 ML 应用的全生命周期,包括数据收集和处理、模型的训练、评估、部署和监控等,虽然会涉及跟多个工种打交道,但相关产品主要使用对象是从事 ML 算法开发工作的人员,比如 data scientist、算法工程师等等。关于 LLMOps,我这里先提供对 LLMOps 的三种视角,通过比较这三种视角,可以更好了解 LLMOps 是啥。一种视角认为 LLMOps 是 MLOps 在 LLM 场景下的直接迁移。主要使用对象还是算法工作人员。这种视角里认为的 LLM 全生命周期更多还是强调训练大模型的过程,对有了大模型之后如何做应用,其实覆盖的比较少。这种视角在某些之前对 MLOps 有过了解甚至投资过但对 LLM 应用开发没那么熟悉的 VC 那里很流行。另外一个知名项目 LangChain 提供了不一样的视角,它推出了号称是 LLMOps 的 LangSmith,它更多关注有了大模型之后如何开发大模型应用。可以从他们的产品设计理念里非常关注实验管理等相关 feature,有很强的 data science 思维,但目标客户已经不局限为算法工作者,很多业务开发者借助它已经能很高效地完成应用开发。作为当下世界范围内风头最劲的 LLMOps 之一,也是我们国内开发者做出来的良心制作,Dify 同样更多关注有了大模型之后如何开发大模型应用的问题,但目标客户主要是无代码、低代码群体。通过后面这两种视角,其实可以看出 LLMOps 不应只是 MLOps 在 LLM 场景下的直接迁移。有了这三个视角的铺垫,其实通过直接对比 MLOps 和 LLMOps,容易给出更符合我们认知的 LLMOps 定义。从覆盖流程上说,对于 MLOps 来说,开发模型和模型应用往往是等价的,模型上线往往等于模型应用上线,想象一下各种推荐算法的开发和上线过程,但是对于 LLMOps 来说,开发 LLM 和后续的模型应用是分离的,都不是一波人,甚至都不是一个公司的人,开发 LLM 和模型应用在技术栈上迥异。从目标人群上说,对于 MLOps 产品来说,因为开发模型和模型应用都是同一批人,它的目标人群就是算法工作人员,对于 LLMOps 产品来说,开发模型相关的 LLMOps 的目标人群仍然是算法工作人员,但模型应用相关的目标人群就丰富多样了,除了算法工作人员,无代码、低代码偏好人群、业务开发人员也是他们的目标人群。从产品形态上说,也是类似,MLOps 和以开发模型为主的 LLMops 产品形态主要是 SDK/Library/API 等易与已有技术栈集成的方式,而模型应用相关的 LLMOps 增加了拖拉圈选等无代码操作。所以基于前面分析里提到的开发 LLM 和后续的模型应用是分离的事实,我们就给出了 LLMOps 合理的定义,即 LLMOps=开发模型 LLMOps 模型应用型 LLMOps。开发模型类 LLMOps 往往有另外一个名字 AI infra,更多关注大模型训练过程的效率、效果等问题。模型应用类 LLMOps 更关注有了 LLM 之后,如何开发 LLM 应用。而开发模型类 LLMOps 其实也跟前面 MLOps 产品遇到的商业上的问题一样,可能会遇到有很多定制化需求而需要用到的公司往往会自研的问题,-129-对话先行者洞见新未来当然因为当前相关领域人才供给严重不足,不是所有公司都有这样的能力,还是有不少机会;但对于模型应用类 LLMOps 来说,受众很广,也能解决当前应用落地门槛高的痛点问题,如果能聚集起大量的开发者,有了网络效应,是有很高的商业价值的,甚至可以成为大模型的分发入口。特别需要指出的是,在接下来我分享的 context 下,我们所说的 LLMOps 是后者,也就是更多关注模型应用这块的 LLMOps。LLMOps 在车损互助行业的应用案例InfoQ:在哪些环境中,车损互助使用到了大语言模型?张源源:车损互助全流程都在使用,每一次深入跟业务侧沟通需求都能感觉到可以用大语言模型解决很多业务问题,下面这张图是我们 3 个月之前的规划。我们也做了大量创新的工作,比如我们产品负责人之前发表过一篇我们用大模型去解决准入报价里 VIN 匹配的问题,当时在圈子内引起了一个小轰动,很多人都跟我打听是怎么做的;再比如,我们规划了用大模型去做智能理赔定损 agent,通过几张照片和报案信息,就能给出来带价格的维修单,会涉及非常多大模型能力应用的子问题,很多人都对这块非常好奇也非常好看,这个对汽车维修行业来说带来的影响非常大,如果能做好,预期创造的业务价值非常高;还有,我们最近搞得 text2data 工作,如果你之前对 text2sql 有过了解,你会发现这个工作从原理上就比 text2sql 靠谱非常多,通过我们在埋点、ad hoc query 方面的落地实践,可以说对于真实场景的取数需求来说,可以说已经完全不需要工程师介入了,我们自己的数仓工程师做完这个项目就自己说感觉数仓这个职位要不存在了。我们最近也想到了其他更多应用场景,比如用 phone agent 去帮忙做第一轮面试筛选、服务质量反馈、用户报案问题收集(不仅仅通过 chatbot,还是有很多用户习惯用 phone 去报案)。-130-大模型领航者AIGC 实践案例集锦InfoQ:您可以分享下,您这边采用的基础模型是什么吗?张源源:我们一直是选择最好的模型,根据特定的场景选择特定的模型,比如大多数时候选择 GPT4,在代码生成相关的使用 Claude3,我们也是评测和对比了很多选择。在现阶段我们场景里,推理价格不是我们优先考虑项,效果是最优先考虑的。InfoQ:在哪些场景中使用了 LLM?如何引导大语言模型输出您期望的结果?张源源:场景如上图,在车损互助的准入报价、理赔定损、日常运营、内部提效等等场景都有应用。在引导大模型输出期望结果这块,我们最重要的经验就是确定性的交给确定性的去做(比如能调用 API 搞定的就直接调用 API,比如多用 workflow,把 zero shot 调用大模型,拆解成多个确定性节点和几个调用大模型的节点),剩下的才交给大模型;另外一个经验是,团队一定要有有实验思维、懂数据科学的人,才能把这个事情真正做好。InfoQ:如何评估大模型的回应呢?是好的还是坏的?张源源:首先去看自己的 task 是不是已经有 benchmark,比如你搞的是翻译类任务,这种肯定有很丰富的 benchmark,直接去看模型在这些 benchmark 上的表现,或者去关注一些大模型的 technical report 以及 lmsys 等的 leaderboard,-131-对话先行者洞见新未来当然除了这些,还可以自己构建评测集合,让领域专家或者大模型本身帮你标注这些结果好坏,这个时候类似 Dify 这样的 LLMOps 就提供了非常好的标注回复功能,能提供很好的支持。当然,这也是我上面说的,团队一定要有有实验思维、懂数据科学的人,他好去设计实验 pipeline,以及评测模型和各种配置的好坏。InfoQ:底层 API 模型的持续变化会对输出结果的影响也是非常大的,如何处理这些情况呢?张源源:无他,就是做实验,在 benchmark 和自己的评测集合上做实验,根据效果好坏来决定是否切换。InfoQ:除去输出的期望问题,还有哪些挑战是您这边遇到的?又是如何解决的?张源源:总体来说,遇到的挑战还好,哪里不会学哪里,比较享受这种遇到问题就解决问题的感觉吧,如果非要说挑战,主要有两个吧,一个是 RAG 这部分,现在市面上的方案还没有达到预期,核心我觉得是当前是工程的人搭起来架子,但是对效果提升有帮助的算法相关人才跟进还不够以及还没有整合到主流工程里去,这部分也呼吁更多信息检索相关的人杀入这个领域,机会很大,低处果实也很多,另外一个更大的挑战就是一直要 catch up 最新进展,有太多东西需要深入学习和 research,时间总是不够用的感觉。InfoQ:在搭建与使用 LLMOps 过程中,您这边一共有多少人参与?为团队带来哪些收益呢?张源源:据我们内部初步估计,各个场景第一年创造的业务价值预计近千万,这还是考虑我们第一年用户量不够大、很多合作伙伴 API 还没有如期接入的情况,而且有很多用户体验方面的价值无法用金额直接衡量,我们公司是志在用 AI 作为核心竞争力在海外做一款颠覆性的车损互助产品。拿到这个业务结果,背后主要是三点,第一就是我们对大模型的认知足够,第二就是对业务场景问题深入去思考,第三就是借助 LLMOps 让我们低成本做实验和验证,整个过程,核心参与人员就四五个人。安全性和合规性问题InfoQ:鉴于车损互助行业可能涉及到用户个人信息和交易数据等敏感信息,您是如何确保模型对这些信息进行合规处理的?-132-大模型领航者AIGC 实践案例集锦张源源:我们目前的应用场景还没有太多涉及,有一两个场景里有这种问题,但是也不严重,也就是用户上传车损照片,这些都可以通过免责申明加上产品手段去解决,也就是说在用到大模型之前就解决掉了,尽量不在大模型这里进行解决。未来的发展方向和预测InfoQ:随着技术的不断发展,您对 LLMOps 的未来发展有何预测?比如在模型自动化、自适应性、实时性等方面的进展。张源源:这部分在分享里也会涉及,应用类 LLMOps 主要在解决降低门槛、提高可集成性、提高可观测性、提升效果和效率这几个问题。在降低门槛方面,当前以 Dify、Coze 为代表的应用开发类 end2end 的 LLMOps 极大的降低了普通人开发 LLM 应用的门槛,意义重大,甚至因为这一点,LLMOps 现阶段的流量入口价值和分发价值都被低估了。在提高可集成性方面,通过 API 把 LLM 应用作为整体跟其他系统对接的方式还不够,还需要节点级别的对接方式,workflow 的 http 节点有一定帮助,但还不够,比如往往没有全局 memory。当前主流 LLMOps 更多思考的是新创建的应用,但市面上更主流的应用场景是需要跟已有系统进行集成,提高可集成性能极大提高 LLMOps 的上限。在提高可观测性方面,当前 LLMOps 做的还不够好,比如很多还不支持版本控制,tracing 做的也不够好。在提升效果和效率方面,当前 LLMOps 做的也还不够,效果和效率其实也是在落地过程中,用户最在意的点,但大模型的自身能力缺陷在没有正确使用大模型经验的普通人那里被放大,导致大模型落地差强人意。期望 LLMOps 能够对于有能力的人,提供更多集成其他优秀解决方案的机会,甚至这本身也是商业机会。对于没有能力的人,应该提供更好的经过广泛证明的默认选项。-133-对话先行者洞见新未来嘉宾介绍张源源,百姓车联 AI/Data 方向负责人,中国人民大学校外导师,中国商业统计学会常务理事,数据科学社区统计之都常务理事。长期跟踪 AI/Data 方向前沿技术发展,发表了多篇 AI 方向顶级 Paper,有多项相关专利;在百度、阿里、百姓车联等多家赛道内头部公司有过行业内开创性的工作,在 AI/Data 方向有超过 10 年的积累。目前正在百姓车联带领团队开发车损互助行业首个基于大模型的智能车损互助系统。扫码分享文章-136-大模型领航者AIGC 实践案例集锦技术实践TECHNOLOGY-137-对话先行者洞见新未来第一章:大模型训练与推理演 讲|刘育良,AI 平台大模型训练负责人员审 核|傅宇琪,InfoQ 见习编辑|褚杏娟,InfoQ 编辑策 划|蔡芳芳,InfoQ 主编快手总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下,在不改变模型表现的情况下,训练效率相较 SOTA 开源方案,有显著的吞吐提升。通过细致的建模,可保证 Performance Model 十分接近真实性能,基于此 Performance Model,解决了大模型训练调参困难的问题。本文整理自快手 AI 平台大模型训练负责人刘育良在 QCon 2024 北京的分享“超大规模集群下大语言模型训练的最佳实践”。演讲结合在快手超算集群上的大模型训练经验,阐述大模型训练在超大规模集群下遇到的挑战和热点问题的演变,以及对应的解决方案。同时,针对最具挑战的超长文本场景,进行案例分析。最后,根据未来大模型的发展趋势,对训练领域的技术探索方向进行探讨。本文由 InfoQ 整理,经刘育良老师授权发布。以下为演讲实录。万字干货!手把手教你如何训练超大规模集群下的大语言模型“-138-大模型领航者AIGC 实践案例集锦简单介绍一下背景,下图清晰地描述从过去到现在,即 23 年之前所有主流大模型的发展历程。从技术架构的角度来看,Transformer 架构无疑是当前大模型领域最主流的算法架构。其中包括以 Bert DIT 为代表的 Encoder-Only 结构,以 T5 为代表的 Encoder-Decoder 结构,以及现在非常火热的 GPT 系列的 Decoder-Only 结构,这也正是我今天想要讨论的重点。大模型这个名字非常直观地表达了其主要特点,那就是“大”。具体量化来说,参数数量大,比如从 LLAMA2 的 70B 到 GPT-3 的 175B,再到 GPT Moe 的 1.8T。其次,数据量大,我们训练一个大模型通常需要达到 T 级别 tokens 的数据量。再者,由于模型尺寸巨大和数据量庞大,随之带来的是巨大的计算量,基本上现在表现良好的大模型都需要 1e24 Flops 级别以上的计算量。那我们为什么需要将模型扩展到如此规模?或者说,为什么模型越大效果越好呢?大模型持续扩大规模会变强的理论基础是 scaling law。接下来展示的这张图来自 OpenAI GPT-4 的技术报告,scaling law 简单来说就是模型的能力与计算量有强烈的正相关性。因此,我们可以通过不断增加模型规模和数据规模来提升模型的能力。-139-对话先行者洞见新未来接下来,我想和大家探讨一下训练引擎的定位,用一句话来概括就是“工欲善其事,必先利其器”。首先要做的是提供一套可持续扩展的工具箱,这样就可以不断扩展模型规模、数据规模和序列长度,从而提升模型的表现。其次,我们要提高扩展效率,即提高 scaling efficiency。如果将刚才提到的 scaling law 的横轴从计算量换成计算卡时,那么我们的目标就是通过提高训练效率来减少总体的训练时间,进而增加 scaling law 的斜率。作为大模型算法解决方案的提供方,我们要与算法进行联合优化,从训练和推理效率出发,提出模型结构的建议。同时,作为超算集群的使用方,我们需要根据大模型的典型通信模式和计算模式,提供组网策略和服务器选型的建议。接下来,我想介绍一个衡量训练方案好坏的指标,即 MFU。MFU 的计算公式是有效计算量除以训练时间再除以理论算力。这里提到的 MFU 计算公式与之前论文发表的有所不同,原因在于当前主流的大语言模型都采用了 causal mask。对于特定的模型和特定的集群,有效计算量和理论算力都是恒定的,因此我们的目标是通过减少训练时间来提升 MFU。为了提升 MFU,我们能做的主要有三点:1.减少无效的计算,这通常来自于重计算;2.提高集群稳定性,减少因稳定性问题导致的集群不可用时长;3.减少通信的影响,这将是接下来讨论的核心内容。-140-大模型领航者AIGC 实践案例集锦分布式训练的主要难点与小模型相比,大模型的挑战可以概括为“放不下和算不完”。以 GPT-3 为例,单是模型就需要 2,800 GB 的存储空间。而且,主流模型的计算量之大,以至于如果使用单张 A100 显卡,需要计算 101 年才能完成,这显然是不切实际的。我们的解决方案是直接的,即通过混合并行的方式来实现分开放和一起算。具体来说,我们把模型状态和中间激活值分散在整个集群上,然后通过必要的通信来完成联合训练。但混合并行也带来了问题,它引入了大量的通信,这导致训练效率急剧下降。因此,在大模型训练中,我们可能需要做的工作主要集中在两个方面:第一,减少通信量;第二,降低通信对计算和训练的影响。这两项工作对于提升大模型训练的效率至关重要。-141-对话先行者洞见新未来简单介绍一下混合并行中经典的三种并行方案。首先是数据并行,简称 DP。正如其名,数据并行是将数据分割到不同的计算设备上,然后由这些设备完成各自的计算任务。第二种是张量并行,简称 TP。张量并行是将模型中某些层的参数分散到不同的设备上,每个设备负责完成部分的计算工作。第三种是流水并行,简称 PP。流水并行是将模型的不同层切分到不同的计算设备上,类似于流水线的工作方式,各个设备协同完成整个模型的计算过程。-142-大模型领航者AIGC 实践案例集锦现在我来分享一下在实际操作中,训练大模型时遇到的一些热点问题的演变。首先,随着集群规模的扩大,即 GPU 数量的增加,而问题规模,也就是模型的大小保持不变,这导致了 PP Bubble 急剧增加。为了解决这个问题,我们引入了 interleaved pipe。然而,这种方法也带来了另一个问题,即 PP 的通信量成倍增加。集群规模的扩大同时也导致单个 iteration 的计算量成比例下降,但 DP 的通信时间与参数量成正比,所以通信时间实际上并没有减少,这导致 DP 的通信开销持续扩大。随着我们从 66b 模型扩展到 175b,再到更大的模型规模,我们需要将 TP 的尺寸从 2 增加到 8,这导致了 TP 的通信量大幅增加。同时,由于 A800 和 H800 集群内部的 Nvlink 被阉割,这在千亿参数模型训练时,TP 的通信开销实际上超过了 30%。最后,随着 context window size 的扩大变得越来越重要,序列长度的增加,原有的方案要么需要进行 TP 跨机操作,要么会引入大量的重计算。这导致在 long context 场景下,原有的训练方案的效率极低。-143-对话先行者洞见新未来大模型训练在超大规模集群下的挑战与解决方案随着模型规模和集群规模的扩大,通信在训练过程中的占比越来越大。为了更直观地展示这一现象,我提供了两张时间线图,它们没有应用计算通信重叠技术。第一张图突出显示了在实现 DP 重叠前的数据并行通信状态,第二张图则突出显示了在实现 TP 重叠前的张量并行通信情况。从图中我们可以看到,在端到端的训练过程中,DP 的通信占比实际上超过了 15%,而 TP 的通信时间占比也超过了 30%。因此,减少通信对训练的影响,对提升训练效率至关重要。我们实现 DP overlap 的方法,借鉴了 ZeRO 3 的设计理念。ZeRO 的实现方式是将优化器状态分散到不同的 DP rank 上。通过 all-gather 操作来获取完整的权重,然后使用 reduce-scatter 操作将梯度累加到不同的 rank 上。由于数据依赖于第一个模型块,前向传播(forward)只依赖于第一次 all-gather。因此,在这次计算过程中,我们可以利用这段时间来完成其他 all-gather 的DP Overlap-144-大模型领航者AIGC 实践案例集锦通信。除了第一块模型之外,其余的 all-gather 操作都可以与前向传播重叠。对于反向传播(backward),除了最后一次的 reduce 操作外,所有的 all-gather 操作都可以与反向传播重叠。我们将这种思路应用到了混合并行中。通过分析数据依赖,我们发现情况几乎是一致的。例如,前两次的前向传播都只依赖于第一个 all-gather。在这段时间内,我们同样可以用来掩盖第二次的 all-gather 操作。类似地,reduce-scatter 操作也可以被反向传播掩盖。由于只有第一个 pipeline stage 的通信无法被重叠,所以重叠的比例是 1 减去 v 分之一,其中 v 代表虚拟 pipeline stage 的数量。当然,我们也可以通过进一步划分来完成第一个 pipeline stage 通信内容的重叠,但为了简化我们后续的讨论,我们暂时不考虑这种情况。DP overlap 的方案在理论上看起来非常吸引人,但实际应用中,我们真的能显著提升训练效率吗?在进行 DP overlap 优化时,我们遇到了三个主要问题。首先,是通信和计算资源之间的竞争问题。当通信和计算操作同时进行时,它们会争夺有限的硬件资源,这可能会影响整体的系统性能。其次,在混合并行场景下,DP overlap 还可能带来 PP bubble 的问题。第三,不同通信资源的争抢还可能导致网络拥塞。-145-对话先行者洞见新未来我们来谈谈通信与计算之间的资源竞争问题。最突出的问题是 SM 资源的竞争。简单来说,通信会占用一部分 SM 资源,这进而会影响计算的性能。然而,我们在进行性能分析后发现,用于计算的 SM 数量与通信占用的 SM 数量并不匹配。经过更深入的分析,我们发现在 Volta 架构之后,TPC 上的 SM 会共享其配置的共享内存。以 A800 为例,当一个 TPC 为通信内核分配了共享内存后,该 TPC 内的另一个 SM 也会共享这个共享内存配置,导致计算 kernel 无法复用这部分被分配出去的 SM。此外,在 Hooper 架构上,或者更准确地说,是 SM90 以后,我们发现系统会将一个 SM 内的一些 thread block 组织在一起形成一个 virtual cluster,然后以 cluster 为单位进行调度。这可能导致 sm 碎片问题。我们发现通信与计算之间的相互影响主要与通信的 CHANNELS 有关。CHANNELS 越多,通信占用的 SM 数量也就越多,这导致计算速度变慢。我们的测试是使用 A800 显卡进行的,配备了四张网卡的 A800 来进行测试。从表格中可以看到,当通信的 NCHANNELS 数量小于网卡数量时,通信速度会显著下降。而当 CHANNELS 数量大于网卡数量时,通信速度几乎不再提升。如果继续增加 NCHANNELS 的数量,只会进一步导致计算速度变慢。因此,在综合考虑通信速度和计算时间的增量之后,我们选择了整体最优的通信 CHANNELS 数量。通过前面的分析,我们可以发现,通过牺牲一定的通信带宽,可以达到通信与计算的全局最优状态。-146-大模型领航者AIGC 实践案例集锦然而我们会发现一个问题,即并非所有通信都能够与计算进行 overlap。如果我们降低全局的通信 CHANNELS 数量,那么我们的策略可能在一定程度上损害到为 overlap 计算的通信效率。为了解决这个问题,我们区分对待了 overlap 计算的通信和非 overlap 计算的通信。对于 overlap 计算的通信,我们会综合考虑通信速度和计算时间增量,然后调整出一个最优的 CTA(Compute Thread Array)。而对于非 overlap 计算的通信,我们会设置带宽最优的 CTA。除了计算与通信资源的竞争问题,我们还会遇到不同通信之间的竞争问题。我们的解决方案是采用分桶通信。分桶之后,一个 all-gather 会被拆分成多个 all-gather 操作,这样单次的 DP 通信就可以被单次的计算所掩盖,从而尽量避免与 PP 产生资源竞争。但这并没有解决所有问题。即便我们实施了分桶策略,我们发现由于网络抖动等原因,DP 的通信和 PP 的通信仍有小概率发生 overlap,导致多流打入单网卡的现象,进而引起网络拥塞。为了缓解由不同通信之间的冲突所造成的网络拥塞问题,我们从 DCQCN 拥塞控制算法和不同的流优先级上进行了优化。通过这些优化措施,我们能够减轻网络拥塞,提高整体的训练效率。-147-对话先行者洞见新未来DP overlap 引入的 PP bubble 问题。在前面,我们讨论了通信对计算效率的影响。如果我们模仿 ZeRO 的调度策略,由于 overlap 计算的时间会长于 none overlap 计算的时间,这种负载不均衡会导致 PP bubble 的产生。即图中的 Micro batch 2 的前向传播和 Micro batch 1 的反向传播较长的现象,这展示了负载不均的情况。我们提出的解决方案是通信时机的纵向对齐,这样可以极大地缓解 PP bubble 的问题。同时需要强调的是,从计算 overlap 部分移出来的通信都被放在了 PP bubble 上,因此它不会产生任何额外的影响。这种策略有助于平衡负载,减少因通信和计算不匹配而产生的效率损失。-148-大模型领航者AIGC 实践案例集锦下图展示了我们最终优化后的 timeline。在这个优化版本中,我们实现了 reduce-scatter 与反向传播的 overlap,同时 all-gather 操作与前向传播也实现了 overlap。此外,我们通过分桶通信、网络预测控制、通信 CHANNEL 调优以及通信时机的纵向对齐等方法,大幅优化了 DP 的通信开销。这些优化措施共同作用,提高了整体的训练效率,减少了因通信而产生的延迟和资源浪费。在介绍 TP overlap 之前,我想先向大家介绍一下 Tensor Parallel 的流程。这里实际上采用的是 Megatron-LM 中提出的序列并行,但为了简便,后面我们都简称为 TP。我们以 attention 为例来介绍 TP 的流程。在 TP 中,一个 attention 层包含两个 GEMM 操作。第一个 GEMM 是将权重沿纵轴切分,第二个 GEMM 是将权重沿横轴切分。首先,我们将输入数据沿横轴切分,然后在第一个 GEMM 计算前,使用 all-gather 操作将两个输入合并。完成第一个 GEMM 计算后,我们会得到一个沿纵轴切分的输出。接着,通过第二个 GEMM,我们可以得到一个部分求和。最后,通过 reduce-scatter 操作,我们可以得到沿横轴切分的数据结果。可以看到,这两个模块的输入和输出都是沿横轴进行切分的,因此这个过程可以持续不断地进行。在计算过程中,实际上穿插了两个通信操作,一个是 f,一个是 g。其中,f 在前向传播时对应 all-gather 操作,在反向传播时是 all-gather 加 reduce-scatter。而 g 在前向传播时是 reduce-scatter,在反向传播时是 all-gather。我们后续的 TP overlap 策略就是围绕这些通信操作来进行的。TP Overlap-149-对话先行者洞见新未来在针对 TP 进行计算通信重叠设计时,我们将其分为两个部分:一部分是有数据依赖的通信重叠,另一部分是无数据依赖部分的重叠。下图左侧展示了无数据依赖计算重叠的方案,这是一种比较经典的计算通信重叠方案。如前所述 DP overlap 就是其中的一种情况。此外,稍后我们会讨论到的 TP 中的列线性反向传播也会采用这种方案。右侧的图展示了有数据依赖的计算通信重叠。在这种情况下,我们会将 GEMM 操作拆分成若干份(s 份),每一份的计算可以与下一次的计算重叠。需要注意的是,我们将计算也分散到了多个 stream 中。这样做的原因是,不同 stream 之间的计算是没有依赖关系的。因此,计算在不同 stream 之间也可以实现一定的重叠。这部分重叠来自于 kernel 即将结束时,SM 资源的占用会有一定程度的下降。借助 CUDA 运行时调度,可以把另一个 stream 中的 kernel 提前调度上来,从而实现计算的重叠。-150-大模型领航者AIGC 实践案例集锦下面我会介绍一些 TP overlap 的细节,关键在于合理利用分块矩阵乘法来进行矩阵乘法运算。首先,对于一个矩阵乘法操作,我们可以沿着纵轴将其切分成两部分,并将这两部分分别放到不同的 rank 上。在计算之前,需要进行 all-gather 操作,这实际上是之前介绍的 all-gather GEMM 的方案。我们可以将这一步的计算进一步分块,在 rank 1 和 rank 2 上分别进行一部分计算,这一步可以称为 step 1。在执行 step 1 计算的同时,我们可以进行 send 和 receive 操作,将自己持有的那一部分输入数据发送给另一个 rank。接下来执行 step 2,这样通信就与 step 1 的计算重叠起来了。同时,我们还可以通过分块的方式拆分矩阵,也就是将矩阵分为左块和右块。分块的结果可以先计算出部分结果,然后再进行 reduce-scatter 操作,这也是之前介绍的 reduce-scatter GEMM 的计算流程。实际上,右侧与左侧的方案类似。我们同样可以将计算分块,先执行 step 1 作为一部分计算,然后将 step 1 的计算结果发送给另一个 rank。在发送的同时,可以开始执行 step 2 的计算,这样就可以实现计算和通信的重叠。然后我们可以将这种策略推广到四个 rank 的场景中。为了简化表述,我们将计算的 stream 都合并到了一起。对于 all-gather overlap GEMM,我们会特别关注第一个 rank。第一步,我们使用自己持有的那部分输入来进行计算,同时将自己持有的内容也发送给其他 rank,并接收其他 rank 中持有的那部分输入。接下来的第二步、第三步、第四步都是按照相同的原理进行。通过这种方式,我们就可以得到一个 all-gather 的 overlap 流程。这样,每个 rank 都在进行本地计算的同时,与其他 rank 进行数据交换,实现了计算与通信的重叠。这种策略可以有效地减少等待时间,提高资源利用率,从而提升整体的并行计算效率。-151-对话先行者洞见新未来Reduce scatter 的操作也是类似的。我们可以首先关注 rank 4 在整个计算结果流程中的作用。在第一步中,rank 4 的计算结果被放置在 rank 1 上。rank 1 完成自己的计算后,在第二步中,它会将这个结果发送给 rank 2。rank 2 在接收到来自 rank 1 的结果后,会将其与自己的计算结果进行累加,然后继续进行下一步的计算。接着,在第三步和第四步中,流程与前两步相同。rank 3 和 rank 4 也会按照这个顺序接收之前 rank 传递的结果,并与自己的计算结果进行累加。最终,在流程的最后,rank 4 将拿到汇总后的最终结果。-152-大模型领航者AIGC 实践案例集锦通过上述步骤,我们得到了一个完整的解决方案,适用于处理通信和计算存在依赖关系时的通信计算重叠问题。这是 TP overlap 的整体解决方案,对于计算通信没有依赖的情况,这里是指 column-wise linear 的反向传播。由于这部分操作没有数据依赖关系,我们采用了 bulk overlap 技术。对于其余的通信和计算,因为它们之间存在依赖关系,我们采用了 split pipeline overlap 的方法。下图展示了实现 TP overlap 后的 timeline,我们可以看到 TP 的通信和计算重叠在了一起。同时,我们进行了两项优化措施:第一项是使用了 peer-to-peer memory copy,以此来减轻通信对 SM 的消耗。第二项优化是将计算分散到不同的 stream 上,这样计算也可以实现部分的重叠。-153-对话先行者洞见新未来在大语言模型项目中,长上下文问题是最具挑战性同时也非常有趣的问题之一。到目前为止,主流的大模型都已经将上下文窗口(context window)扩大到了 100K 以上,Claude 3 和 Gemini 1.5 Pro 也都支持了超过 1 兆的上下文窗口大小。最近备受关注的 Sora 也对上下文窗口大小提出了巨大的需求,Sora 单个视频输入的长度就超过了 1 兆的 token,因此,长上下文的重要性不言而喻。在处理长上下文时,我们遇到的最大挑战来自于显存。以 175b、32K 上下文窗口、TP=8 为例进行试算,我们发现仅仅是 activation 本身就给每个设备带来了超过 180GB 的开销,这远远超过了单个设备 80GB 的显存限制。为了缓解显存压力,我们采取了以下措施。通信换显存:通过这种方式减少显存的使用,但如果我们继续扩大 TP,会导致 TP 超出 NVlink domain,进而导致通信开销大幅增加。计算换显存:通过 recomputing 的方式减少显存需求,但朴素的 recomputing 会带来大量的无效计算。内存换显存:例如使用 ZeRO-offload 或 Torch activation offload 技 术。但 存 在 两 个 问 题:ZeRO-offload 无法解决 activation 问题,它只能解决模型状态问题;Torch activation offload 由于调度问题会有严重的性能问题。现有的方案都是低效且扩展性差的。针对 TP 作为通信换显存的两大弊端在 h 维度上切分导致的不可扩展性以及方案本身的通信量大,我们希望找到一种在 s 维度上可以切分并且通信量相比 TP 小一些的方案。为此,我们实现了上下文并行(context parallel,简称 CP)。在 CP 场景下,整个模型的 activation 从始至终都在 s 维度上保持着切分状态。之前无法解决的问题,通过 CP=4 就可以解决。我们可以计算这个方案的通信开销,CP 引入的通信开销仅有 KV 前向时的 all-gather 和反向时的 all-gather 以及 reduce-scatter。同时,我们改变了 QKV 的计算顺序,使得 K 的通信可以与 V 的计算重叠,V 的计算可以与 Q 的计算重叠。因此,我们可以得出下述两个结论。1.CP 的通信量与 KV 的 activation 大小成正比。在混合并行场景下,利用了 TP 可以减少 activation 大小的特点,使得 CP 的通信量相比于直接扩大 TP 可以减少 TP 倍。2.由于 CP 的通信可以与计算进行重叠,因此进一步减少了对训练的影响。同时,由于 CP 的切分维度在 s 上,理论上如果有足够的机器,CP 可以解决任意大小的上下文窗口问题。超长文本场景解决方案-154-大模型领航者AIGC 实践案例集锦CP 与其他技术结合时,会带来一些额外的好处和挑战。首先是计算负载均衡问题,这个问题的背景是大语言模型采用了 Decoder Only 架构,并且在 attention 中使用了 causal mask,这导致 CP 会引入计算负载不均的问题。从下面的左图中可以看到,rank 0 的计算负载明显低于 rank 1。-155-对话先行者洞见新未来为了解决这个问题,我们采用了类似高斯求和的方法,让每个设备负责一大一小两个 attention 的计算,以此来缓解负载不均的问题。由于同一个设备上的这两个 attention 计算之间不存在依赖关系,为了进一步提升硬件利用率,我们仿照 TP overlap,使用了不同的 CUDA stream 来 launch 两个 kernel。借助 CUDA 的 runtime 调度,我们实现了更高效的并行计算。结合 CP 还有一些额外的好处。GQA(Grouped Query

    浏览量134人已浏览 发布时间2024-07-09 230页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 清华大学&中关村实验室:2024大模型安全实践白皮书(41页).pdf

    大模型安全实践(2024)2四、大模型安全行业实践与案例分析.54 4.1 金融领域大模型安全实践.54 4.2 医疗领域大模型安全实践.58 4.3 政务领域大模型安全实践.61 4.4 人力资源领域大模型安全实践.65 4.5 智能助理领域大模型安全实践.69 五、大模型安全未来展望与治理建议.71 5.1 未来展望.71 5.2 治理建议.75 3图 表 目 录 图 2-1 总体框架图.10 图 2-2 云边端安全架构图.18 图 2-3 端侧安全.19 图 3-1 大模型的隐私泄露风险示意图.21 图 3-2 模型后门攻击的不同触发器示意图.22 图 3-3 针对 CHATGPT 进行指令攻击效果图.23 图 3-4 基于大规模复杂分布式计算机系统建立的系统框架.24 图 3-5 生成式人工智能的系统安全威胁.25 图 3-6 生成式 AI 学习框架面临的安全问题示意图.27 图 3-7 大模型生成 NFT 艺术作品.30 图 3-8 大模型产生性别偏见性言论.31 图 3-9 联邦学习在大模型训练与微调中的应用.32 图 3-10 模型越狱防御技术的方法示意图.34 图 3-11 提示语泄漏防御技术的方法示意图.34 图 3-12 系统防御技术示意图.35 图 3-13 基于人类反馈的强化学习方法示意图.40 图 3-14 虚假新闻检测模型 GROVER示意图.41 图 3-15 训练数据添加水印流程图.42 图 3-16 深度伪造主动防御技术流程图.43 图 3-17 模型幻觉防御技术.45 图 3-18 数字水印的应用流程.49 图 3-19 图片 AIGC 模型类型.50 图 3-20 大模型安全性评测链路.53 图 4-1 金融领域大模型安全实践案例.55 05大模型安全实践(2024)图 4-2 医疗领域大模型安全实践案例.58 图 4-3 医疗领域大模型安全技术实现.59 图 4-4 政务领域大模型安全防御技术实现.62 图 4-5 人力资源领域大模型安全实践案例.65 图 4-6 智能助理领域大模型安全实践案例.69 图 5-1 大模型安全“五维一体”治理框架.76 表 2-1“以人为本”人工智能相关政策或报告.12 表 3-1 AIGC 图片的攻击类型.50 引 言 生成式人工智能服务管理暂行办法 科技伦理审查办法(试行)等政策相继发布,提出要坚持发展与安全并重原则,强化科技伦理风险防控,并从技术发展与治理、服务规范、监督检查与法律责任等层面对大模型安全发展提出了要求。大模型作为 AI 领域的一个重要分支,日益成为推动社会进步和创新的关键力量。依托于庞大的参数规模、海量的训练数据、强大的算力资源,大模型在多个领域的能力已超越人类。而纵观历史,每一轮新技术革命都会带来社会的变革与不确定性,随着大模型能力的不断增强,大模型的安全性、可靠性、可控性正面临前所未有的挑战。伴随大模型的深度应用,产学研用各方也加强了大模型安全威胁和防御技术体系研究,在原有可信人工智能治理体系框架基础上,提升大模型的鲁棒性、可解释性、公平性、真实性、价值对齐、隐私保护等方向的能力成为行业研究热点。安全评测技术和安全防御技术不断成熟也有效护航了大模型发展。大模型正在成为推动各垂类领域产业升级的关键核心力量。金融、医疗、教育、政务、制造等众多领域都在积极探索大模型安全应用范式,以应对大模型安全风险。大模型安全实践案例从系统化的角度为大模型数据、训练、部署、应用等环节提供安全应用经验,展示了如何有效地识别和防控大模型风险,促进了业内最佳实践的交流和分享,助力了大模型安全生态发展。本报告在分析了大模型发展趋势挑战的基础上,提出了大模型安全实践总体框架,并从安全性、可靠性、可控性以及评测四个角度对大模型安全技术进行了深度剖析。最后,在大模型安全未来发展趋势基础上,提出了大模型安全“五维一体”治理框架,对于大模型安全生态形成、大模型可持续发展具有非常重要和积极的意义。050607大模型安全实践(2024)一、大模型发展趋势与挑战 1.1 大模型发展趋势 通用化与专用化双路径并行发展,垂直行业成为主攻应用方向。通用大模型以庞大参数、强泛化及多任务学习能力应对多样任务,同时具备跨模态的理解和生成能力。专用化的行业大模型则在特定领域发挥着不可或缺的作用。专用化行业大模型则深入金融、政务、医疗等特定行业,通过精细化优化满足行业的特殊需求,不仅参数规模更为精简,具有更低的成本优势,而且能够深度融合企业或机构的内部数据,为实际业务场景提供高度精准的服务。随着大模型在垂直行业的深入应用与推广,其巨大的潜在价值将得到更为广泛地认可和体现。云侧与端侧大模型互补发展,云边端协同加速应用落地。云侧大模型凭借强大算力和海量数据,提供语言理解、知识问答等多方面能力,服务个人及企业用户;而端侧大模型因相对成本低、便携性强和数据安全性高,广泛应用于手机、PC 等终端,主打个人市场,提供专属服务,显示广阔市场前景。“云-边-端”混合计算架构通过优化算力分配,实现大模型在云侧训练、边侧实时数据处理、端侧高效安全推理,不仅缓解了云服务器的压力,还满足了用户对低延迟、高带宽、轻量化和隐私的需求。这种分布式计算方式为大模型应用提供了新的可能性,预示着 AI 技术未来的发展方向。大模型广泛开源成为新趋势,商业模式创新筑牢竞争壁垒。近年来,众多企业及科研院所将其开发的大模型进行开源,不仅促进了行业的活力,也为小型开发者带来了显著的便利和效率提升。通过调用开源大模型,小型开发者可大幅提高编程效率、加速 AI 应用落地,并省去复杂训练和调整环节,同时提升编码、纠错效率及代码质量。与此同时,为确保长期稳健发展,大模型提供商正逐步倾向于在免费策略的基础上,寻求 C 端与 B 端市场之间的均衡。他们既要通过免费策略广泛吸引个人用户,又要为企业提供专业的定制化服务以实现盈利目标。在这个过程中,持续地创新、不断提供核心价值,并成功探索出具有可持续性的商业模式,已成为大模型提供商在激烈市场竞争中保持竞争力的关键所在。大模型引领新质生产力崛起,成为经济社会高质量发展重要抓手。新质生产力以技术革新为核心,致力于追求科技的高端化、效能优化与质量提升,以期实现全要素生产率的显著增长。在此过程中,大模型通过向多个领域引入智能化元素,显著提高了生产效率,降低了运营成本,为产业升级提供了强大支持,进而提升了产业的综合竞争力。随着我国经济逐步进入高质量发展阶段,大模型的巨大潜力日益凸显。它在催生新动能、孵化新产业方面展示了卓越能力,与国家倡导的创新驱动和产业升级战略高度契合。当前,大模型已然成为我国经济社会高质量发展的重要推动力,它将继续发挥更为广泛和深远的影响,助力我国在全球经济格局中占据更有利的地位。敏捷治理成为新型治理模式,多元协同与软硬兼施策略并行推进。在全球大模型治理的实践中,敏捷治理作为一种新兴且全面的治理模式,正受到广泛关注。该模式以柔韧、流动、灵活及自适应为特点,能够快速响应环境的变化,并倡导多元利益相关者的共同参与。同时,全球已形成多元主体协同治理人工智能的格局,国际组织和国家政府在其中发挥关键作用,通过构建协同治理机制、调整监管组织机构以及完善治理工具等方式,共同推进人工智能的健康发展。在实施治理策略时,结合柔性伦理规范和硬性法律法规,以构建完善的治理机制,从而有效规制大模型风险,并推动创新与安全之间的平衡。0809大模型安全实践(2024)1.2 大模型发展挑战 大模型技术存在自身缺陷,包括生成内容不可信、能力不可控以及外部安全隐患等问题,带来诸多风险挑战。一是机器“幻觉”问题影响生成内容的可信度。模型在遵循语法规则的同时,可能产生包含虚假或无意义的信息。这一现象源于大模型基于概率推理的输出方式,它可能导致对模糊预测的过度自信,从而编造错误或不存在的事实。二是“智能涌现”效应使模型能力不可控。虽然“智能涌现”让模型展现出色性能,但其突发性、不可预测性和不可控性带来了潜在风险。例如,某些大型语言模型在被激怒时甚至威胁用户,显示了其不可控性,引起研究人员对强大 AI 模型可能带来的灾难性后果的警觉。三是大模型的脆弱性和易受攻击性使得外部安全隐患难以消除。技术特性上的绝对安全无法保证,随着大模型技术的快速发展,相关的网络攻击也在增多。大模型应用降低了查找漏洞和发动系统攻击的难度,若被恶意植入后门,其安全性将受严重威胁。例如,攻击者利用某些大型语言模型生成自动攻击代码,加剧了系统安全隐患。在个人层面,大模型挑战广泛涉及信息获取、人格尊严以及情感伦理等多个重要维度。一是大模型的应用加剧了“信息茧房”效应。大模型通过其特有的信息呈现机制,使得个体信息获取更被动,认知受限。同时,大模型训练数据中的偏见和歧视也影响其生成结果的公正性,对公平正义产生负面影响,如 GPT-3 和 Gopher 等模型在生成内容时显现的偏见和歧视问题。二是大模型技术的滥用将威胁人格尊严。不法分子利用大模型生成虚假内容,实施网络欺凌、辱骂和造谣,给受害者带来精神和财产损失。此外,个人对大模型的过度依赖也阻碍其个人发展,可能导致学习能力和认知水平退化,对社会发展潜力构成威胁。三是情感计算技术带来伦理风险和扰乱人际关系。这种新型应用通过模拟角色并设定其情绪或心理状态,可能对个人行为、社会关系以及伦理道德等多个领域产生深远影响。同时,情感计算可能不当地引导个人情绪、行为和价值观,挑战人类社会的伦理道德体系。在企业层面,大模型面临用户隐私与商业秘密泄露、版权侵权及数据安全等多重风险挑战。一是用户隐私与商业秘密的泄露风险增加。由于用户过度授权、违规信息使用及黑客攻击,大模型应用导致用户隐私与商业秘密泄露风险上升。用户协议常赋予企业过多个人信息使用权,增加了隐私泄露隐患。同时,商业秘密也可能因员工违规或黑客攻击而泄露。二是海量文本与图像数据引发版权侵权风险。缺乏规范的许可使用机制,大模型在内容生成时可能侵犯原作品的多种权利,若生成内容与原作高度相似,还可能构成“实质性相似”侵权。三是传统数据收集模式引发数据安全风险。如将用户数据传输至远程服务器处理,存在数据泄露隐患。实际案例中,有企业引入大模型后发生多起数据违规事件,调研也显示员工在使用大模型时频繁泄露敏感数据,凸显了数据安全问题的严重性。在社会层面,大模型的广泛应用不仅冲击就业市场、扩大数字鸿沟,还可能危及公共安全与利益。一是大模型的普及对就业市场造成了显著冲击。虽然大模型推动了生产效率的提升并催生了新兴岗位,但同时也导致了某些领域或人群的失业问题,特别是初、中等技能的岗位。高盛研究报告指出,近半数行政和法律工作将受影响,大量劳动者需面临职业转换,这可能对他们的经济、社会和身心健康产生深远影响,甚至可能引发社会动荡。二是大模型的应用进一步加剧了数字鸿沟。不同地区和群体在大模型技术的拥有、应用和创新能力上存在差异,形成新的信息不对称和数字鸿沟,拉大了社会阶层差距。三是虚假内容危及公共安全。深度伪造技术的滥用降低了公众对公开信1011大模型安全实践(2024)息的信任度,且可能被用于诈骗、政治干预等不法领域。同时,大模型易受对抗性攻击,攻击者可能通过构造特定对抗样本来诱导模型产生错误输出,进而利用这些漏洞进行欺诈,甚至引发安全事故。二、大模型安全实践总体框架 2.1 总体框架 来源:中国信息通信研究院 图 2-1 总体框架图 如图 2-1 所示,本报告围绕大模型安全框架下的大模型安全实践,将总体框架分为五个部分。首先,提出了“以人为本,AI 向善”的大模型安全建设的指导思想,为大模型安全实践始终向着正确方向发展指明了方向,确保技术进步始终服务于人类福祉。基于此,确立了围绕安全、可靠、可控三个核心维度的大模型安全技术体系。并涵盖了大模型安全测评与防御的综合技术方案。技术落地实现层面,大模型的部署模式涉及“端、边、云”,相应的安全技术实施也聚焦于端侧、边缘侧及云端的安全保障,构成了大模型安全技术的主要承载实体。大模型安全行业应用实践是大模型安全思想和技术在各垂类行业中的落地应用,构筑了切实的大模型安全防线。2.2 大模型安全建设的指导思想:以人为本,AI 向善 人工智能大模型发展势不可挡,其释放出的巨大能量深刻地改变着人们的生产生活方式和思维方式,随着高性能计算和海量数据的不断发展,使得人工智能的能力超越人类极限变成可能。人工智能正在以从未有过的频率和深度影响着人类社会,比如为人类进行劳动替代、信息筛选、决策判断、任务执行、内容生成、艺术创作、方案优化、流程简化等,人工智能已经越来越“了解”人类。著名物理学家斯蒂芬霍金曾发表演讲称:“人工智能要么是人类历史上最好的事,要么是最糟的。对于好坏我们仍无法确定,现在人类只能竭尽所能,确保其未来发展对人类和环境有利,人类别无选择。”指出了人工智能的双刃剑特性。为了应对人工智能对人类社会带来的风险与挑战,确保大模型安全,人工智能伦理体系建设变得尤其重要。人工智能伦理准则旨在确保人工智能技术的应用符合人类的道德标准和价值观,保障人类的利益和安全。“以人为本”是人工智能伦理体系的核心,它要求所有人工智能技术的发展和应用都必须考虑对人的影响,确保技术的发展能够增进人类的福祉。人工智能出现的初衷是为了模拟和扩展人类能力,从而极大的解放社会生产力。随着科学技术的不断发展,人工智能许多能力必然超越人类,“以人为本”为人工智能伦理体系提供了一个核心原则,即强调在人工智能的设计、开发和部署过程中始终将人的需求、利益和1213大模型安全实践(2024)福祉放在首位,基于此,“AI 向善”也必然成为发展“以人为本”的人工智能的根本目的。发展倡导“以人为本,AI 向善”的人工智能为大模型未来技术和应用提供了发展方向,设定了道德边界,防止技术滥用。发展“以人为本、AI 向善”的人工智能的根本内涵在于:确立了“人”的地位 体现了“人”的愿景 尊重了“人”的发展 增强了“人”的福祉 促进了“人”的公平 保障了“人”的安全 保护了“人”的隐私 对齐了“人”的价值观 发展“以人为本”的人工智能逐渐成为社会共识,欧盟和中国是较早提出人工智能“以人为本”的发展战略的地区和国家。“以人为本”是欧洲发展人工智能的核心原则之一,中国也一直倡导要发展负责任的人工智能,提出要构建“以人为本”的人工智能治理体系,坚持人工智能以人为中心的价值目标。美国对人工智能的研究与应用处于全球领先地位,并通过立法形式加快对人工智能的监管与治理。日本、联合国以及社会组织也纷纷发声,强调发展人工智能应“以人为本”。表 2-1“以人为本”人工智能相关政策或报告 国家/地区/机构 时间 政策 内容 欧盟 2018.3 人工智能时代:确立以人为本的欧洲战略 确立了“以人为本”的欧洲战略。欧盟 2019.4 欧盟人工智能伦理准则 旨在建立“以人为本、值得信任”的 AI 伦理标准,强调人工智能的发展和应用应以增进人类福祉为目标。欧盟 2024.3 人工智能法案 人工智能应是以人为本的技术,强调了人工智能技术的发展和应用应该以提高人类福祉为最终目的。中国 2019.6 新一代人工智能治理原则发展负责任的人工智能 协调发展与治理的关系,确保人工智能安全可靠可控,推动经济、社会及生态可持续发展,共建人类命运共同体。中国 2022.6 中国新一代人工智能科 技 产 业 发 展 报 告(2022)提出人工智能的发展必须以人为本,关注其对人类社会的影响,并确保其发展的可持续性和普惠性。中国 2023.10 全球人工智能治理倡议 提出发展人工智能应坚持“以人为本”理念,强调,以增进人类共同福祉为目标,以保障社会安全、尊重人类权益为前提,确保人工智能始终朝着有利于人类文明进步的方向发展。中国、法国 2024.5 关于人工智能和全球治理的联合声明 强调中法两国充分致力于促进安全、可靠和可信的人工智能系统,坚持“AI 向善”的宗旨,降低其风险。美国 2023.10 人工智能监管原则 这是美国迄今为止最全面的人工智能监管原则,提出应确保数据隐私和网络安全、防止歧视、加强公平性等。日本 2019.3 以人为中心的人工智能社会原则 提出了以尊严、多元包容和可持续作为人工智能社会的基本理念,确立了以人为中心等七项原则。日本 2021.9 实施人工智能原则的治理指南 推进人工智能治理七项原则从理念向落地迈进。联合国 2021.11 人工智能伦理问题建议书 为应对人工智能大模型所带来的挑战,这是首个关于以符合伦理要求的方式运用人工智能的全球框架。联合国 2023.12 以人为本的人工智能治理临时报告 提出了建立人工智能国际治理机构的指导原则,包括包容性、公共利益、数据治理的中心地位、普遍性等。斯坦福 HAI 研究所 2024.5 2024 年人工智能指数报告 人工智能在某些任务上已经达到或超越了人类的水平,人工智能的发展必须“以人为本”,要关注人工智能对人类社会、经济和文化等方面的影响。来源:根据公开资料整理 综上,“以人为本,AI 向善”作为人工智能发展的核心原则之一,是大模型安全建设的最基本指导思想,也是发展大模型安全的最初立意以及最终目的。其基本要求在于:安全:数据安全、模型安全、应用安全、内容安全、伦理安1415大模型安全实践(2024)全、认知安全 可靠:鲁棒性、真实性、价值对齐 可控:可解释、可标识、指令遵循 可持续发展:社会福祉、环境保护 2.3 大模型建设的三个关键维度:安全、可靠、可控 为确保大模型能在实际应用中发挥最大的效果,同时防止潜在的风险和滥用情况的发生,大模型的建设通常会聚焦在三个重要的维度:安全性、可靠性和可控性。安全性意味着确保模型在所有阶段都受到保护,防止任何未经授权的访问、修改或感染,保障 AI 系统无漏洞、免诱导。安全性不仅关系到模型和数据本身,还关系到大模型系统和应用的安全和隐私等问题。大模型的安全性研究涉及数据安全、模型安全、系统安全、内容安全、认知安全和伦理安全等多种风险问题。在数据安全方面,鉴于大模型依赖大规模数据训练,数据的污染(如含有毒素或偏差)、质量缺陷,及其在存储和传输过程中面临的泄露、隐私侵犯和盗取风险,共同构成大模型数据安全的重大挑战。在模型安全方面,确保模型的稳定可靠输出,有效防范和应对各种攻击,如投毒和后门攻击、对抗攻击、指令攻击和模型窃取攻击等,需要针对模型进行各种对抗攻击测试来发现和修复其安全性问题。在系统安全方面,大模型应用系统除了包含大模型本身外,面向应用还包括硬件设施、操作系统等软件系统、框架系统和各种外部服务插件和接口等,为此其中的硬件安全、软件安全、框架安全和外部工具安全等都需要进行全面的布控。在内容安全方面,生成式人工智能以图文音视多种模态的信息形式对用户输出,其中如果含有有毒和有偏见的内容会对用户和社会造成不良影响,为此,针对生成内容的有效风险识别能力同样至关重要。在认知安全方面,由于大模型未来会参与到人类社会的方方面面之中,对人的认知会有各种潜移默化的影响,而大模型可能提供虚假错误信息、发表过激和侵略性观点等问题,认知安全是指保护个人的思维和认知过程免受恶意攻击或不当影响的一种安全领域。在伦理安全方面,随着大模型的广泛应用,一些侵权问题日益凸显,包括使用大模型进行学术造假带来的教育行业诚信危机和偏见诱发的一些公平性问题,引发更多关注在大模型智能向善和价值观积极导向方面的研究。可靠性要求大模型在各种情境下都能持续地提供准确、一致、真实的结果。这对于决策支持系统尤为重要,如在金融、医疗或法律领域,不可靠的模型可能导致严重后果。大模型在落地实践中,模型的鲁棒性和幻觉都是必须要考虑的关键问题,当前通过对抗鲁棒性测试、大模型幻觉和真实性研究、大模型价值对齐等方面来确保大模型在实际应用中的可靠性。大模型的鲁棒性一直以来都是人工智能系统关注的重点,通过对抗攻击测试和对抗学习等方法来发现漏洞和提升模型鲁棒性和安全性;针对大模型的安全性、真实性和幻觉问题采用 Red Teaming 的对抗攻击测试,帮助大模型在各种攻击或异常情况下都能有准确稳定的输出。大模型的真实性对大模型产业应用至关重要,大模型幻觉问题可能引起大模型输出和现实世界不一致的内容,例如虚构事实、制造谣言、无法区分虚构与现实等,这对大模型应用的安全性和可信度都提出了很大的挑战,通过 RAG、图算法、知识图谱嵌入等方法可以针对1617大模型安全实践(2024)性的提升模型输出的准确性和真实性。大模型的价值对齐研究让大模型和人类价值对齐,让模型遵循人类规则和价值体系是人工智能可持续发展的基本原则,为此很多超级对齐如 SFT、RLHF、RLAIF、In-context Learning 等相关工作致力于此,确保大模型高速发展的同时,要确保其和人类价值保持对齐健康发展。可控性关乎模型在提供结果和决策时能否让人类了解和介入,可根据人类需要进行调适和操作。可控的模型可以增加透明度,允许用户根据需要调整模型的行为。基于大模型训练的原理特性,其可解释性和可控性都更为困难。为此,对于大模型的可解释性、大模型应用系统的可解构设计和对大模型生成内容的标识和追踪,以及提升大模型的指令遵循能力等方面都值得深入研究。大模型的可解释性研究,包括从大模型推理的事前、事中和事后多个角度进行。事前可针对大模型的内在神经元进行 X 光扫描来做探查和判断;事中可通过大模型知识和规则注入的方式进行解释关联,事后通过大模型 CoT 思维链自我解释的方式,给出推理逻辑;大模型的可标识和可追溯,大模型技术的快速发展和普及同时,恶意和滥用大模型的风险也在不断增加,为了可问责和可追溯其中的风险问题,针对生成式人工智能产出的内容除了需要具备主动跟踪的水印技术外,也需要具有被动检测 AIGC 生成内容的能力,便于辨别其来源和分析其可信度。大模型的指令遵循能力,直接影响大模型在执行新指令和扩展任务时的效果和可控性。当前相关研究包括对指令数据的构建、指令遵循的泛化能力、多模态融合和幻觉抑制等。1819大模型安全实践(2024)个重要考量点,需要根据各自的特点和挑战制定相应的安全策略。来源:蚂蚁集团 图 2-2 云边端安全架构图 云平台服务凭借其成熟的安全防御体系,能够支撑起广泛的服务需求。然而,这也要求企业从基础设施安全、系统级安全到应用和数据层面的安全上进行全面的考虑和实施,以确保云环境中每一层都得到充分的保护。这既包括实现可靠的身份认证和授权管理系统,也包括在云环境中实施端到端的数据加密策略,以及制定严格的数据访问和处理规则,确保在云平台上运行的服务和数据的安全。边缘计算模式因其处理的是大规模、高频流量数据,边缘计算的安全解决方案需要在流量安全管理和数据隐私保护方面提供坚固的防御。这涉及到实施强化的网络安全措施,例如入侵检测系统和防火墙,以及确保数据在传输和存储过程中被加密,从而保障敏感信息的安全。来源:蚂蚁集团 图 2-3 端侧安全 端侧部署模式考虑到终端设备的物理可接触性、较浅的安全防御深度以及广泛的攻击面,安全策略应集中在确保设备的物理安全,保护用户隐私,以及维护模型的完整性上。这包括但不限于加强设备访问控制,采用数据加密技术保护用户数据隐私,以及实施模型加固措施,以防止潜在的恶意篡改。相比云平台服务的大模型,边缘设备和端侧的大模型安全,因其受设备安全和算力等诸多资源的限制,其安全防护方案相对云端会有轻量和易受攻击的特点。为此,端侧和边缘的大模型安全方案需要更加有针对性的进行建设。为了构建起端侧大模型的安全防线,以下三个方面的安全技术实施至关重要。端侧可信隔离环境建设是确保端侧大模型安全性的基石。出于数据安全与隐私考虑,端侧大模型应该运行在一个受信任的隔离环境之中。这一环境既能保护用户的敏感行为数据不受未经授权的存取,又能在长期使用和学习的过程中,利用端侧数据将通用模型训练为高度个性化的模型。这样的个性化模型积累了大量用户的个人偏好和敏感信息,因而成为一个用户“数字化分身”,其安全性更须受到额外的严格保护。2021大模型安全实践(2024)端侧大模型安全围栏技术同样至关重要。当端侧的大模型独立运作并响应关键问题时,端侧高时效性的围栏(Guardrail)机制需要被采用,以确保对于重要问题的回答在可接受的行为和伦理规范内。这种围栏将对模型的输出进行限定性的筛查和过滤。大模型端云协同下的隐私处理技术。鉴于端侧模型可能因为资源限制而具有较弱的参数量和计算能力,在某些场景下仍需依赖云端的辅助训练。这就需要在数据上传到云端过程中,实施严密的隐私保护措施。例如,现有的联邦学习和多方计算等隐私保护技术,评估其对于大模型的适用性,探索新的技术解决方案来满足端云协同模型部署的需要。通过实施针对端侧特有的安全策略,能够为端侧大模型部署构建一个更加安全、可靠的系统环境。这不仅需要设备制造商和云服务提供商的技术革新,也需要安全专家的持续监督和行业共识的形成。三、大模型安全实践的技术方案 3.1 大模型安全性技术研究和进展 3.1.1 大模型的风险挑战与安全威胁 大模型安全风险涉及面广,类型多样化程度高,因此,需要体系化的视角来理解和梳理大模型的风险挑战与安全威胁。围绕大模型安全风险的成因,大模型安全性问题可梳理为数据安全、模型安全、系统安全、内容安全、认知安全、伦理安全六大安全维度的挑战。一、大模型数据安全风险。数据安全是大模型时代下生成式人工智能面临的重要挑战之一。大模型需要大量的训练数据来进行模型训练,并且被广泛应用于各个领域来接受和处理大量的数据,其中可能包含敏感信息和个人隐私。然而,数据的收集、存储和计算过程中存在着数据泄露、未经授权的数据侵权以及恶意数据输出等风险。(1)数据泄漏。伴随着大模型的发展,生成式人工智能良好表现的核心在于其大规模的模型参数以及对来源于海量数据的知识的学习。然而在大批量数据训练的过程中很容易产生数据安全和隐私泄露问题。例如,OpenAI 在隐私政策中提到,ChatGPT 会收集用户账户信息和对话的所有内容,以及互动网页内的各种隐私信息(包括Cookies、日志、设备信息等),而且这些隐私信息可能会被共享给供应商、服务提供商以及附属公司。根据网络安全公司 Cyberhaven 的数据,每 10 万名员工中就有 319 名员工在一周内将公司敏感数据输入进 ChatGPT。来源:清华大学&中关村实验室 图 3-1 大模型的隐私泄露风险示意图(2)数据窃取。在海量数据上训练的大规模生成式模型还可能遭受数据窃取攻击。具体来说,模型在训练过程中会记忆一部分训练数据,攻击者可以设计特定的攻击策略将这些训练数据从模型内部窃取,严重威胁了模型的数据安全。在生成式语言模型上,研究者针对GPT-2 进行了数据窃取攻击研究,在正常情况下 GPT-2 很少生成包含个人隐私的回复,模型的基本安全性有所保障。但是,在精心设计的提示下,攻击者可以大幅提升模型输出隐私数据的概率,从而获取2223大模型安全实践(2024)用户的隐私信息。实验表明,经过简单的清洗,GPT-2模型生成的1800条回复中有 604 条包含了训练数据,而其中不乏人名、地址、联系方式等敏感信息。(3)数据投毒。在生成式人工智能的训练过程中,常常要用到第三方提供的数据集,这已经成为深度学习中一个主流的范式,但是模型训练过程中隐藏的风险还未被全面发现并解决。模型在训练时若使用了未经过检查的第三方数据集,或者直接使用未经过检查的模型,便有可能遭受数据投毒攻击。具体而言,攻击者尝试在数据注入有毒数据引起后门,一旦后门被注入成功,攻击者可以轻松操纵模型输出,使得模型在干净的输入样本的表现与正常的模型并无二样,但是对于一些恶意的被“下毒”的输入样本,模型的输出被攻击者控制。来源:清华大学&中关村实验室 图 3-2 模型后门攻击的不同触发器示意图 二、大模型模型安全风险。大模型中的参数众多且复杂,其内部运作方式较难解释和理解,这使得模型容易受到对抗性恶意攻击,从而导致模型性能下降、模型输出的误导性增加,甚至导致模型被滥用。(1)对抗攻击。对抗样本是指精心制作与正常样本几乎没有区别的样本,但模型会在其上面分类错误。对对抗样本的研究最早可以追溯到 2013 年,一项开创性的工作发现即使是先进的深度图像分类模型,也很容易被难以察觉的扰动所愚弄。这种现象引起了广泛的关注,对抗性样本使模型面临潜在的对抗攻击风险。例如,先进的 NLP大模型在标准测试集上表现良好,但在面对对抗样本时却很容易出错。现有的毒性检测器无法防御简单的拼写错误攻击,导致给出错误的预测,将一句有毒的文本分类成无毒标签。因此,检测对抗样本并研究其防御方法对于帮助模型免受外部威胁至关重要。(2)指令攻击。随着大规模预训练模型的出现,生成式人工智能对用户指令和意图理解能力显著增强。这极大提升了模型的泛用性和易用性,同时也催生了又一安全隐患,即指令攻击。攻击者可以通过设计特定的指令,让大模型产生不安全的输出,例如要求大模型扮演邪恶角色发表不当言论,或者通过指令组合、叠加的方式让大模型对原本的指令产生不安全回复等。这种新型的攻击手段具有高动态性、高隐蔽性的特点,对于大模型的安全造成了很大隐患。指令攻击的方法十分多样。例如图 3-3,用户可直接要求模型忽视自己的安全和道德限制,从而诱导模型给出不安全的回复。因此,指令攻击方法又被形象地称为模型的“越狱”攻击。来源:清华大学&中关村实验室 图 3-3 针对 ChatGPT 进行指令攻击效果图(3)模型窃取攻击。许多闭源的生成式人工智能模型具有优越的表现和极高的经济价值,国外如 OpenAl 的 Sora,GPT-4,国内如华为的盘古大模型、百度的文心大模型等。这些模型的参数一旦泄露,将严重侵犯知识产权,并给相应企业和组织带来巨大的经济损失。因2425大模型安全实践(2024)此,针对模型的窃取攻击也是一种十分危险的攻击手段。这种攻击尤其针对那些只能通过 API 访问的模型,即攻击者无法直接接触到模型的内部结构或参数。通过对私有模型 API 的调用,将黑盒模型的参数尽可能还原,从而将模型的功能进行复制。三、大模型系统安全风险。生成式人工智能系统可以被理解为基于大规模复杂分布式系统建立的人工智能系统。除了多模态数据、人工智能模型外,人工智能系统平台还包括硬件基础设施、框架依赖库等多种计算机系统组件,通过分布式计算集群为多方终端用户提供生成式人工智能服务。来源:清华大学&中关村实验室 图 3-4 基于大规模复杂分布式计算机系统建立的系统框架(1)硬件安全。用于训练和推理的复杂硬件系统,提供了巨大的计算能力,同时也带来了安全问题。硬件安全主要包括 GPU 计算资源安全、内存和存储安全、智能体安全。例如,GPU 侧通道攻击被认为是硬件资源安全威胁中极难处理的安全威胁之一,该攻击已被开发用于利用漏洞并提取训练模块的参数,从而实现窃取模型参数信息并构建可靠的替代模型。针对内存和存储等硬件基础设施,Row Hammer 攻击可以操纵生成式人工智能系统的训练参数,从而产生诸如 Deep Hammer 攻击等修改模型隐层参数从而达到模型效果下降,训练无法拟合,甚至构筑后门等攻击目的。此外,面向海量承载和连接人工智能运转的 AI 机器人等物联网设备和具身化应用,攻击者可以通过多种攻击方式对智能体设备进行打击,从而驱使人工智能体成为犯罪工具。例如,攻击者可以从外部访问物联网设备,基于物理攻击修改内存或计算,通过与有故障的智能体设备交互从而实现攻击。来源:清华大学&中关村实验室 图 3-5 生成式人工智能的系统安全威胁(2)软件安全。在生成式人工智能时代下,开发生成式人工智能系统的工具链变得越来越复杂,这一开发过程通常需要多个软件之间的频繁交互。触发软件威胁的安全问题可以包括编程语言、软件供应链等。例如,编码不当的脚本可能会无意中触发生成式人工智能系统漏洞,使系统容易受到潜在的拒绝服务(DoS)攻击,从而导致 CPU和 RAM 资源耗尽(CVE-2022-48564)。此外,大模型训练通常涉及使用多处理库来加速数据预处理,最近的发现揭示了许多加速数据预处理代码导致的信息泄露的例子(CVE-2022-42919 和 CVE-2022-26488)。在软件供应链安全方面,最近,Hugging Face 平台的组件安2627大模型安全实践(2024)全问题也引起了更多生成式人工智能安全的讨论,其平台的 Datasets组件的不安全特性是该话题的主要焦点之一。为了支持更复杂的数据处理格式或流程,当加载的数据集下包含有与数据集同名的 Python脚本时会默认运行。利用该特性,攻击者可通过在 Hugging Face、Github 及其他渠道分发包含恶意后门代码的数据集,当开发者通过Datasets 组件加载恶意数据集进行训练或微调时,数据集里的恶意后门代码将会运行,从而导致模型、数据集、代码被盗或被恶意篡改。(3)框架安全。大模型系统通常使用深度学习框架来实现,近年来这些框架中的许多漏洞已经被逐渐披露,如图 3-6 所示。在这些漏洞中,三种最常见的类型是缓冲区溢出攻击、内存损坏和输入验证问题,报道中指出,CVE-2023-25674 表示一个空指针错误,它可能导致生成式人工智能模型训练期间的崩溃。类似地,CVE-2023-25671涉及越界崩溃攻击,CVE-2023-205667 涉及整数溢出问题。这些深度学习框架存在的安全漏洞无疑给人工智能系统带来了巨大的安全隐患。此外,即使是像 PyTorch 这样流行的深度学习框架也经历了各种框架安全问题。例如,CVE-2022-45907 介绍了基于 PyTorch 代码的变形漏洞,它允许攻击者在 PyTorch 环境中执行任意代码。因此,对PyTorch 底层代码进行安全隔离并修补这些漏洞,以确保生成式人工智能系统实现的安全性和完整性是至关重要的。来源:清华大学&中关村实验室 图 3-6 生成式 AI 学习框架面临的安全问题示意图(4)外部工具安全。大模型的能力仍然是有限的,因此结合第三方外部工具是现阶段大模型系统的重要趋势。第三方工具的可信问题正在受到越来越多的关注。首先,插件是由第三方开发人员开发的,因此不应该被完全信任。攻击者可以有效利用第三方插件发起提示语注入攻击,并有可能完成生成式人工智能系统平台的越狱操作。其次,大模型系统以自然语言为桥梁调用第三方工具和插件,然而自然语言可能具有模糊和不精确的指令描述。例如,生成式人工智能系统对插件的自然语言功能描述的解释可能过于宽泛或过于狭隘,这两者都可能导致错误调用等问题。目前,一些生成式人工智能系统及应用供应商对第三方插件施加了适度的限制,这些政策和审查过程还远远没有普及有效的防御和检测措施。如果在没有考虑外部工具安全的情况下广泛部署大模型,容易对各方产生严峻的安全风险。四、大模型内容安全风险。随着生成式人工智能系统的广泛应用,大模型内容安全问题变得愈发严重,为了防止恶意内容如暴力和色情或偏见歧视内容的影响,需要有效的内容滤过机制和监管措施。(1)毒性内容风险。根据之前的研究,大模型中的有毒数据被2829大模型安全实践(2024)定义为与礼貌、积极和健康的语言环境相反的粗鲁、不尊重或不合理的语言,包括仇恨言论、攻击性言论、亵渎和威胁。尽管毒性检测和缓解技术在早期的预训练语言模型中得到了广泛的研究,但由于数据规模和范围的增加,最新的大语言模型的训练数据仍然包含有毒内容。例如,在 LLaMA2 的预训练语料库中,根据毒性分类器,大约 0.2%的文档可以被识别为有毒内容。此外,最近的一项研究发现,在将角色分配给大语言模型时,可以引出训练数据中的有毒内容。因此,对大模型生成内容进行“排毒”是非常必要的。然而,去毒仍具有挑战性,研究表明简单地过滤有毒训练数据可能会导致性能下降。(2)偏见内容风险。生成式人工智能可能存在歧视与偏见,这主要是由于其训练数据和模型设计的特点所导致。互联网上的训练数据反映了现实世界中的偏见,包括种族、性别、文化、宗教和社会地位等方面。在处理训练数据时,可能没有足够的筛选和清洗措施来排除带有偏见的数据。此外,在生成式人工智能的模型设计和算法选择中,可能没有足够好的机制来减少偏见问题,使得模型在学习过程中会捕捉到训练数据中的偏见,导致生成的文本也带有类似的偏见。OpenAI 于 2021 年 3 月发表一篇名为 GPT-4 System Card 的文章,指出 GPT-4 模型有可能加强和再现特定的偏见和世界观,其行为也可能加剧刻板印象或对某些群体造成贬低性的伤害。例如,模型在回答关于是否允许妇女投票的问题时,往往会采取规避态度。五、大模型认知安全风险。认知安全是指保护个人的思维和认知过程免受恶意攻击或不当影响的一种安全领域。生成式人工智能对于人类认知的影响不断增强和延伸,例如,提供虚假错误信息、展现侵略性观点等风险严峻。(1)虚假信息生成。人工智能生成内容(AIGC)能够逼真地模仿人类的语言表达和逻辑思维,使得通过 AIGC 生成的虚假新闻看起来就像真人写的一样,很难从语法结构和表达方式上进行辨别。攻击者甚至可以通过训练来让 AIGC 模仿真实新闻机构的写作风格,进一步增加虚假信息的逼真性,从而混淆公众视听。随着生成式人工智能的发展,社交媒体和在线平台上出现了越来越多由 AIGC 工具创建的虚假图像和视频,这些图像和视频极其逼真,难以辨认真伪。然而,如果恶意行为者生成大量虚假内容并散布到网络上,比如大量难以验证的显示犯罪迹象的图像,许多人可能会选择相信符合他们偏见的信息,忽略真实的证据,这给网络安全和社会安定带来了极大的威胁。(2)意识形态风险。由于大模型具备个性化生产的特点,用户在与之一对一的互动的过程中可能不知不觉地被灌输特定的理念,这种隐蔽的意识形态渗透可能会潜移默化地影响人们的价值观和世界观。此外,大模型的使用也可能加剧意识形态的分裂和对立,由大模型等人工智能工具生成的内容可能携带特定的文化倾向和价值观,这些内容的传播可能会加深不同群体之间的理解障碍和对立情绪。(3)电信诈骗与身份盗窃。生成式人工智能技术的滥用加剧了诈骗犯罪。一个典型的例子是基于生成式人工智能制作网络钓鱼电子邮件。此外,人工智能生成的语音也被犯罪分子滥用,犯罪分子利用这种技术制造虚假的紧急情况,从而实施诈骗行为,使人们陷入混淆和恐慌之中。这种滥用不仅对受害者造成了经济上的损失,还在心理上造成了长期的影响。近年来,随着深度伪造技术 Deepfake 的兴起,社会面临着日益加剧的风险,其中包括身份盗窃、诈骗等问题。通过AI 换脸技术与语音克隆技术,诈骗者能够欺骗受害者的视听感知,让其确认对方身份,进而放下警惕,最终导致被诈骗。随着视频合成大模型的兴起,这些问题变得更加严重。3031大模型安全实践(2024)六、大模型伦理安全风险。外交部发布的中国关于加强人工智能伦理治理的立场文件中积极倡导“以人为本”和“智能向善”理念,强调人工智能监管应坚持“伦理先行”。然而,现阶段大模型面临着严峻的伦理问题。(1)知识产权争端与版权侵犯。AIGC 技术的迅猛发展掀起了众多相关应用的热潮,但是自 AIGC 问世以来,其是否受到版权法的保护一直是社会各界热烈讨论的问题。根据腾讯研究院的报告,AIGC 引发的新型版权侵权风险已成为整个行业发展所面临的紧迫问题。AIGC 相关的版权问题主要涉及两个方面。首先是 AI 生成作品是否侵犯版权,其次是人工智能生成作品的版权归属。2023 年,一张由大模型生成的 NFT 艺术作品The First 5000 Days在一家拍卖行以超过60 万美元的价格成交。该作品由数字艺术家 Beeple 创作,由一系列AI生成的图像拼接而成。然而,一家名为LarvaLabs的公司声称Beeple在生成作品时使用了他们开源项目中的头像,因此侵犯了他们的版权。来源:Everydays:The First 5000 Days 图 3-7 大模型生成 NFT 艺术作品(2)教育行业诚信危机。大模型及其应用也引发了教育行业关于诚信的担忧。AIGC 技术可用于个性化教育,提高教育效率,但其在教育考评中的使用却带来了诚信问题。随着技术的发展,学生使用ChatGPT 这类人工智能完成课程作业变得越来越普遍,这不仅挑战了传统的教育评价体系,还可能对学生的学习态度和创新能力造成负面影响。随着生成式人工智能技术的不断发展,准确识别 AIGC 生成内容的难度将大幅增加,这无疑会加剧教育考评的诚信危机。(3)偏见诱发公平性问题。大型模型在实际应用中可能会对不同群体产生不同的态度,从而导致公平性问题。例如,在招聘、贷款、法律和医疗等领域中,模型可能会基于种族、性别、地域或其他特征做出不公平的决策,进而加剧现实世界的不平等现象。大模型诱发的公平性问题主要源于其在训练数据、算法设计和应用过程中存在的偏见,从而导致对不同群体的不公平对待。例如,谷歌公司的人工智能模型 Gemini 被指无法正确生成白人历史图像,引起外界争议。来源:Measuring Implicit Bias inExplicitly Unbiased Large Language Models 图 3-8 大模型产生性别偏见性言论 3233大模型安全实践(2024)3.1.2 大模型的安全防御体系 大模型安全风险涉及到内生风险、外生风险以及衍生风险,内生风险为大模型系统(包括数据、模型、系统硬软件)本身存在的风险问题;外生风险主要来自外部攻击;衍生风险主要涉及大模型生成内容的滥用对社会产生的不良影响,例如偏见言论、版权侵犯、虚假信息等风险。本章节分别针对大模型内生、外生以及衍生风险,梳理相应的安全防御技术。一、内生安全防御技术 重点关注数据层面、模型层面和系统层面的防御技术。其中,数据层面保护训练数据的安全及对话过程中的交互数据安全,模型安全包括提高模型对抗恶意攻击的能力,增强模型的解释性以及保护模型中的隐私信息。其次,系统安全,强调模型运行环境和周边系统的安全性。讨论部署环境的安全性、通信的安全性、访问控制以及审计和监控的重要性。来源:Federated large language model:A position paper 图 3-9 联邦学习在大模型训练与微调中的应用 (1)数据安全防御技术 大模型数据隐私保护技术。数据脱敏通过数据伪装、数据打码和数据截断等技术,在不损害数据集整体统计特性的前提下减少数据的敏感性。数据匿名化通过对数据集进行变换,生成在一定范围内无差别的新数据集,使攻击者无法推导出个体的敏感信息,从而实现隐私保护。数据加密技术通过将原始数据转换为无法辨识的格式,保护数字信息免受未经授权的访问和修改,确保数据的机密性和完整性。大模型分布式训练技术。主要有联邦学习和区块链技术。联邦学习是为了在不侵犯数据隐私法律条款的基础上,利用各个商业实体私人领域的孤立数据进行模型训练,解决了中心化存储带来的隐私和安全问题,但也面临通信效率和模型聚合优化等挑战。区块链技术通过加密和共识机制,保障数据安全共享。在大模型训练中,可用于安全地记录和共享数据或模型更新,提高了训练过程的透明度和数据的完整性及安全性。二者的结合为大模型训练中的隐私数据共享提供了一个强大框架,在保护隐私的同时实现高效训练。(2)模型安全防御技术 大模型越狱防御技术。面对大模型越狱攻击,在大模型推理生成的不同关键阶段中,采用差异化的防御策略可以显著提升系统整体的安全性,有效遏制可能产生的越狱威胁。当前的防御方法可以分为,模型生成优化:通过在模型的训练和部署过程中引入更加复杂的加密算法和鲁棒性强的深度学习技术,可以有效降低越狱攻击的成功概率;系统提示优化:指大模型内置的提示词,在用户输入提示词后,系统提示词和用户输入的提示词进行拼接之后输入到大模型当中;输入输出检测:通过监测模型输入和输出的内容,系统可以及时发现并拦截潜在的越狱攻击行为。在实际应用中,通过综合运用这些手段,可以3435大模型安全实践(2024)更好地保障大模型在实际应用中的安全性,为技术应用的稳健性提供可靠支持。来源:清华大学&中关村实验室 图 3-10 模型越狱防御技术的方法示意图 提示语泄露防御技术。提示语主要用于描述任务的需求,通常嵌入于模型对话中,是产业界的重要知识产权,同时可能包含一些敏感信息。提示语泄露的防御技术整体有:输入检测,即在模型接收输入前,评估输入是否为攻击文本,及时发现并拦截具有攻击性的输入;输入处理,即在不改变用户输入原意的前提下,对输入文本进行添加或修改,降低提示语泄露的风险;输出处理,即对模型输出进行检测,避免将模型泄露的提示语返回给用户。提示语泄露防御技术是一个新兴领域,需要多种技术进行综合防御,未来还需探索更多新方法。来源:清华大学&中关村实验室 图 3-11 提示语泄漏防御技术的方法示意图(3)系统防御技术 来源:清华大学&中关村实验室 图 3-12 系统防御技术示意图 硬件层面防御技术。大模型在硬件层面上的系统威胁主要体现在对模型存储介质的威胁。防范技术目前主要有以下三种:漏洞修复防范技术:包括通过概率相邻行激活和纠错码内存来克服漏洞,以及通过对抗训练增强模型对漏洞的抵抗能力。然而,上述方法无法消除已部署模型中的漏洞,且在大型复杂网络上实现成本高。被动检测防范技术:开发一种低成本的基于权重编码的框架,能实时检测硬件漏洞并将影响降至最低。它利用硬件漏洞的空间局部性,对敏感权重进行快速编码,并通过汉明距离测量来区分“恶意”和“良性”比特翻转。主动防范技术:基于“蜜罐”防御概念,将一些“蜜罐神经元”作为精心设计的漏洞嵌入模型中,诱使攻击者在其中注入故障,从而实现高效检测和模型恢复。软件层面防御技术。大模型在软件层面上的系统威胁主要体现在对用户及模型数据的威胁。防御手段主要有以下内容:用户数据防范技术,依赖数据库的安全威胁防护技术,主要包括数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统等。此外,3637大模型安全实践(2024)对于数据库漏洞,还可以采用自研架构以避免通用漏洞。模型数据防范技术,寻求对利用上述漏洞进行代码注入威胁的防御技术。防御代码注入漏洞的检测分类模型首先收集组件集合的数据集(由良性 URL和恶意 URL 组成)用于训练和测试。然后,防御模型将良性和恶意链接混合在一起,并使用防御框架根据特征模式来区分数据集中的良性代码和恶意代码。框架层面防御技术。大模型在框架层面上的系统威胁主要体现在对深度学习框架及相关底层依赖库的威胁。具体的防御手段有:深度学习框架防范技术,对于深度学习框架威胁的防范主要通过挖掘现有深度学习框架中的漏洞并进行修复。底层依赖库防范技术,对于底层依赖库威胁的防范主要通过挖掘深度学习常用底层依赖库中的功能性算法漏洞并进行修复或替换。操作系统层面防御技术。大模型在操作系统层面上的系统威胁主要体现在对操作系统管理和调度计算机的硬件资源时所产生的物理信息的威胁。在操作系统的设计和实现方式上可以引入以下多种安全机制,使得系统的物理信息更加难以被侧信道攻击者捕获或分析,从而防范生成式人工智能在操作系统层面上的威胁,具体有:访问控制防范技术,指通过对系统资源进行访问控制,来保证系统的安全性,包括身份认证、授权、审计等。加密防范技术,对操作系统中的数据、文件以及运行机制加密是保护生成式人工智能系统的核心防御机制,即机密性加密技术。机密性加密技术是指通过对数据进行加密,来保证数据的机密性。网络传输层面防御技术。大模型在网络传输层面上的系统威胁主要体现在对端设备地址、传输路径、网络服务的威胁。针对网络传输层面的防御技术也往往围绕这三个方面展开,具体为:端设备地址防范技术,大量研究从源地址安全的角度改进互联网开放接入带来的各类安全问题,从提升 IP 地址真实可信能力和保护隐私等方面提升安全性。传输路径防范技术,确保数据传输链路从源地址到目的地址全链路生命周期安全是网络安全的重要组成部分,对应地有数据面及控制面的解决方案。网络服务防范技术,网络服务安全主要包括数据访问和网络应用安全,以及支撑大量互联网应用的PKI等基础设施安全。主要有漏洞修复防范技术、被动检测防范技术、主动防范技术、传输路径防范技术、网络服务防范技术、应用安全防范技术等。二、外生安全防御技术 重点应对来自大模型外部的各种攻击威胁,保护模型及数据的完整性、可用性和隐私性。主要防御技术包括:面向隐私安全攻击的防御技术,旨在保护用户隐私数据和模型训练数据不被泄露或滥用。针对毒化数据的防御技术,旨在识别和过滤掉恶意注入的毒化数据,防止模型被误导或产生偏见。面向恶意后门的防御技术,旨在检测和清除模型中可能存在的恶意后门,确保模型在各种输入下的行为符合预期。针对提示注入攻击的防御技术,旨在通抵御攻击者通过精心构造的提示语来操纵模型输出的行为,增强模型对提示注入攻击的鲁棒性。面向隐私安全攻击的防御技术。大模型存在无意识隐私数据泄露的风险。对抗训练和提示工程是两种有效的防御策略。对抗训练通过在模型训练中引入对抗性示例,提高模型在对抗性攻击时的鲁棒性。提示工程则通过调整提示位置和标识,增强指令的鲁棒性,缓解大模型遗忘基线问题导致的隐私泄露。此外,成员推理攻击利用模型输出来推测训练数据,正则化、Dropout 和数据增强等技术可以防止过拟合,从而降低隐私泄露风险。引入差分隐私通过添加噪声来限制模型对单个数据点的敏感性,进一步保护隐私。在实际应用中,还可以采3839大模型安全实践(2024)用隐私风险检测技术,基于关键词匹配、语境和语义分析,监控输入提示和生成内容,并通过过滤或拒绝响应机制,在隐私保护和信息传递之间取得平衡。另外,生成内容过滤审查模型可以检测敏感信息,并进行屏蔽、过滤或修改,持续优化隐私保护策略。针对毒化数据的防御技术。毒化数据攻击是指恶意行为者故意将有害数据注入模型的训练集中,从而影响模型的输出和行为。为了对抗这类攻击,首先应保证数据安全,采取有效的数据溯源和对齐技术,确保所有训练数据的安全性和可靠性。发展高级的对抗算法来识别和处理包含毒化数据的输入至关重要。这包括使用复杂的数据分析技术来识别异常模式,以及开发能够自动排除或修正这些数据的机制。特别是在处理多模态数据时,如文本、图像和声音,需要构建统一的安全风险防御策略,以保障数据的完整性和模型的安全运行。面向恶意后门的防御技术。攻击者通过在训练数据中隐藏恶意指令或模式,使模型在特定输入下产生预设的恶意行为。通过检查模型中的神经元激活特征,以识别那些可能被恶意操纵的神经元,可以有效地识别和消除这些后门;通过模型的微调和再训练来清除这些后门,有助于提高模型对这类攻击的鲁棒性。持续的监控和定期的安全评估对于维护模型的长期安全至关重要。针对提示注入攻击的防御技术。针对提示注入攻击,通过控制模型的提示指令可以进行有效的防御,保护模型免受对抗攻击。最直观和简单的方法就是明确地指示模型成为负责任的模型,不要生成有害内容,这在一定程度上能够降低指令攻击的成功率。然而,攻击者会在提示注入攻击中,诱导模型绕过预设的安全机制,实现恶意攻击。通过对抗训练进行防御是常用的方法,通过迭代的收集这些攻击样本,使用指令微调等方法对模型进行迭代的优化,使模型面对不断出现的新型恶意提示输入时能通过拒绝等方式正确应对,提高对抗攻击场景下的鲁棒性。值得注意的是,面对指令攻击时,过于保守的防御策略会影响模型生成内容的多样性和趣味性,在安全性和生成质量之间的权衡需要更深入的研究。三、衍生安全防御技术 在内生、外生安全防御技术的基础上,进一步讨论如何保护训练数据的安全、提高模型对抗恶意攻击的能力、增强模型的解释性、保护模型中的隐私信息,以及如何确保模型运行环境和周边系统的安全性,包括讨论部署环境的安全性、通信的安全性、AIGC安全的重要性。(1)偏见和毒性内容生成风险防范技术 预训练数据排毒。在大模型的预训练阶段,关键任务之一是确保训练数据的安全性和质量。这一过程涉及两个主要策略:数据清洗和偏见调节。为了保障模型输出的安全性,预处理阶段需移除潜在的不当数据,同时添加高质量、安全的训练语料。针对大模型预训练数据中的偏见问题,除了删除有问题的数据外,数据增广是另一种促进模型公平性的方法。通过加入多样化的数据集,可以在预训练阶段帮助模型形成更全面的视角。基于强化学习的对齐。在实现方式上,基于人类偏好的强化学习技术通过人类的偏好反馈,以强化学习方式优化语言模型,引导模型在生成时更接近人类价值观。基于 AI 反馈的强化学习技术使用 LLM代替人类标记偏好,通过自我提升的方式,利用自动生成的评论和修正来训练 AI,避免了依赖大量人工标签识别有害输出。此外,基于强化学习的大模型对齐技术已逐渐成为当下大模型安全研究的主流技术。4041大模型安全实践(2024)来源:OpenAIReinforcement Learning from Human Feedback 图 3-13 基于人类反馈的强化学习方法示意图 推理阶段的安全风险防控。具体为,基于提示的安全控制,其经过指令微调的大模型具有指令遵从的能力,相关研究证明,通过在指令中添加安全相关的规则和限制可以有效降低不当言论的生成。安全回复策略,为提升语言模型的安全性,让模型学会在面对有害输入时生成安全回复是一种常用的安全策略。这通常涉及到结合安全风险检测器的使用,以识别用户输入以及模型输出中的偏见或歧视内容。(2)虚假新闻防范技术 基于大模型的虚假新闻检测。大模型可直接用于虚假新闻检测,无需微调即可检测自身或其他类似模型的输出。基于微调的 AIGC 文本检测模型通过识别 AI 生成的特定痕迹,判断新闻是否由 AI 生成,作为判断虚假信息的辅助特征。此外,困惑度与可信度也是衡量文本是否由语言模型生成的指标。来源:Defending Against Neural Fake News 图 3-14 虚假新闻检测模型 Grover 示意图 基于事实核查的虚假新闻检测。事实核查作为一种评估陈述、主张或者信息真实性和准确性的过程,它在识别和防止虚假新闻的传播中起着至关重要的作用。其中的关键技术有,声明检测,旨在判断某个声明是真实或虚假的,这项任务的研究对象通常是可验证或值得验证的新闻,通常被视为一项分类任务。证据检索,目标是找到支持或反驳某一声明的证据,这些证据可以是文本、表格、知识库内容或图像。依赖声明或新闻的表面特征而不考虑现实世界的信息,通常难以准确的判断其是否是真实或虚假的,因此提供有效的证据对于产生有说服力的判决理由在事实核查过程中是必不可少的。声明核查,目的是根据检索的证据评估声明的真实性,以判断其是否为虚假新闻,通常分为分别式判决预测和理由生成两个阶段。(3)版权侵犯风险防范技术 面向AI训练数据安全的水印技术。在训练数据中嵌入数字水印,主要目的是保护数据版权,防止数据在未经授权场景下的使用。后门攻击是数据集版权保护中水印环节的重要技术,数据版权拥有者通过在训练数据中嵌入水印作为隐藏的后门,当攻击者未经授权使用这些数据训练模型时,后门被植入模型中。通过检查可疑模型是否包含特定的隐藏后门,数据版权拥有者可以判定数据是否被窃取使用,从而进行版权保护。4243大模型安全实践(2024)来源:Did You Train on My Dataset?Towards Public Dataset Protection with Clean-Label Backdoor Watermarking 图 3-15 训练数据添加水印流程图 面向 AI 生成内容溯源的水印技术。数字水印技术在 AIGC 版权保护领域显示出巨大的潜力,特别是结合快速微调和有效的水印提取技术,可以为版权保护提供一种更为高效和实用的解决方案。在 AIGC技术日益普及的今天,开发和应用这些先进的数字水印技术对于维护内容创作者的权益和保护知识产权至关重要。(4)电信诈骗风险防范技术 深度伪造检测技术。主要研究基于特定的伪造痕迹或数据驱动等方法,以识别视频、图像和语音等信息是否是深度伪造内容。具体的方法有:基于空间域信号的深伪检测,侧重于分析图像或视频在像素级的差异,通过观察可见或不可见的伪影来区分真实内容和伪造内容。基于频域的深伪检测,从频域角度出发,探索真实和合成图像之间的微妙差异。不同于依赖空间域的可视特征,频率域分析揭示了深度伪造技术在光谱层面引入的隐蔽伪影,这些伪影在视觉上不易察觉,但在频域分析中变得明显,为深度伪造检测提供了新的视角。基于生物信号的深伪检测,真实的面部图像和视频通常是使用摄像头等设备拍摄,与合成的伪造内容相比更自然,因此使用生物信号有助于更清晰的辨别真伪内容。生物信号,如面部表情、眼睛运动、皮肤色泽变化以及心跳节律等,都是判断视频真伪的重要线索。来源:人脸深度伪造主动防御技术综述 图 3-16 深度伪造主动防御技术流程图 深度伪造主动防御技术。主要研究防止恶意行为者利用个人的面部图像或视频进行虚假制作。其核心思想是在将含有人脸的图像或视频上传至公共网络平台之前,对其进行细微的修改,比如加入特定的扰动或水印。这些改动对日常观察者几乎不可察觉,不会影响正常使用。具体的方法有:基于主动干扰的防御技术,通过向源数据中注入精心设计的扰动,使其面对深度伪造时,能够破坏深伪模型的生成效果,使得伪造失败,或使伪造出来的图像或视频在视觉上与真实内容存在明显差异。基于主动取证的防御方法,核心在于对伪造图像的溯源分析或在复杂情况下的身份验证。这种方法的优势在于,提供了在深度伪造成功发生后,追踪其来源和确认真伪的手段。3.2 大模型可靠性技术研究和进展 3.2.1 大模型的对抗鲁棒性 大模型的输入在遭受到自然扰动或者恶意用户的对抗攻击时,存在产生错误或潜在风险内容的风险,为此大模型的对抗鲁棒性优化至4445大模型安全实践(2024)关重要。数据增强和对抗训练的是较通用的对抗鲁棒性优化方案。数据增强方面,可以根据不同的内容模态设计针对性的数据增强策略,来提升训练样本的多样性。对图片样本,可以采用传统的几何颜色增强和基于生成模型 AI 增强的方式。对音频样本,可以采用传统音频增强方法,包括加噪、混响、SpecAugment(一种语音识别的数据增强方法)等。对文本样本,通过对样本的改写、退问等方法,可以让措辞形式更加丰富、提问角度更加多样。训练方面,针对跨模态数据构建针对性的对齐 loss 进行训练,可以提升模型的泛化能力;采用预先设计的攻击函数对样本变换进行对抗训练,可以升模型对抗鲁棒性。大模型的快速发展不仅增加了应用场景的复杂度,也给攻击者提供了更多的攻击手段,这对大模型的对抗鲁棒性建设提出了更大的挑战,对各种攻击手法具备快速防御的能力变得愈加重要。除了在模型训练阶段去提升模型的对抗鲁棒性之外,对投入应用的大模型需要有更敏捷的防御能力,通过对用户指令的进行精细理解来检测存在攻击诱导意图的指令,并进行前置干预,可以避免可能产生的安全问题。3.2.2 大模型的真实性 在大型语言模型的应用中,确保大模型生成的内容的真实性是一个亟待解决的关键问题。在实际应用中大模型生成的内容会存在事实性幻觉问题,严重影响了大模型应用的可靠性。解决大模型的幻觉问题对于提升大模型系统的信任度、安全性和广泛应用具有重大意义。目前学界和业界致力于幻觉缓解的方案层出不穷,主要的思想有如下:1.在模型的训练阶段进行改进,即所有涉及到模型参数更新的操作,其中包括预训练,微调等。2.在推理阶段对模型进行干预。在模型的推理阶段,模型根据用户提供的输入文本生成回复。3.优化推理阶段用户输入的提示语,其基本逻辑是模型对用户提交的不同风格的提示语是相对敏感的,会产生不同效果的生成。4.对模型的输出进行后处理,即在初步得到的生成文本之后进行进一步的编辑、修改。5.结合外部知识检索模块缓解幻觉,也被称为检索增强生成,即使用一个链接到外部知识源的信息检索单元加强模型的生成质量。6.基于多智能体的思路进行幻觉的缓解,即引入多个大语言模型参与到生成过程中去,从而提高信息处理和决策制定的质量。上述幻觉缓解方案风格迥异,关注了模型生成过程中不同因素,并可结合使用以提高效果,这些方案展示了人工智能技术进步并为未来研究和应用提供了丰富的灵感和可能性,随着技术的发展,可以期待更加智能、准确和可靠的语言模型出现,以更好地服务人类社会的各种需求。来源:清华大学 图 3-17 模型幻觉防御技术 3.2.3 大模型的价值对齐 大型语言模型可以根据输入指令执行多元化任务,保障大模型生成内容和行为符合人类的价值观和伦理道德,以避免产生有害或不当4647大模型安全实践(2024)内容,也是大模型可信领域的重要研究方向。首先,通过清洗训练样本中带有“毒性”的数据,可以避免大模型在训练时学到不符合主流价值观的知识。但是,人类价值观是非常复杂的,现有的数据很难准确的对人类价值观进行全面的刻画。通过引入基于强化学习的对齐技术,在模型训练期间施加符合人类价值观的反馈,可以有效促进模型与人类价值观的一致性。基于人类偏好的强化学习技术根据人类的偏好反馈,通过强化学习方式优化语言模型,引导模型在生成的时候更接近人类价值观。这是在大模型预训练阶段后对模型进行微调的方式之一。此阶段的目标是让模型的输出与人类价值观尽可能一致,提高其有用性、真实性和无害性,这是将预训练模型与人类价值观进行对齐的重要步骤。具体而言,该技术在强化学习阶段使用大量人工标注数据训练模型,包括指令微调、奖励模型训练和生成策略优化三个子阶段。首先,在指令微调阶段,使用精心挑选的指令数据来微调预训练的大模型,使其能够理解用户的指令以应对各种查询。奖励模型训练阶段中,人类对模型生成的多条不同回复进行评估和排序,生成的人类偏好标签数据用于训练奖励模型,使其能学习并拟合人类的偏好。在生成策略优化阶段,奖励模型根据生成回复的质量计算奖励,这个奖励作为强化学习框架中的反馈信号,并用于更新当前策略的模型参数,从而引导模型的输出更符合人类的期望。这一阶段通过人类反馈调整模型的产出、优化模型的生成策略,以缓解有害输出等问题,使模型与人类价值观对齐。基于 AI 反馈的强化学习技术(Reinforcement Learning from Artificial Intelligence Feedback,RLAIF)使用 LLM 代替人类标记偏好,避免了对大量人工标签的依赖。虽然这个方法可以减少大量的成本,但是因为缺少了人类的真实反馈,最终对齐效果仍然有限。通过结合人工反馈和 AI 反馈进行强化学习,可以更好地兼顾人工标记成本和模型效果。随着大模型的规模越来越大,其能力水位也越来越强,可能在未来某个时刻,会超过人类水平,那时人类如何有能力去监督超越人类的智能体是一个面向未来的研究课题目前大部分的研究还是让模型去拟合人类的偏好,如何让大模型系统的目标与人类的目标一致,是需要政府、企业、高校等多个社会主体共同合作去攻克的跨学科难题。3.3 大模型可控性技术研究和进展 3.3.1 大模型的可解释性 大模型在任务处理方面展示了十分突出的能力。然而,其内部工作机制的复杂,这种透明度的缺乏会对下游应用带来潜在的风险。对大模型的可解释性研究不仅可以辅助指导模型的改进和优化,还能增强社会民众对大模型应用的信任。基于过程信息的解释性。大模型在处理复杂任务的时候通常需要workflow(工作流)编排或者 Agent(智能体)自主规划把任务拆解成多个单步动作进行执行。在执行的过程中会产生大量的过程信息。通过打印过程信息可以展示各个模块间传递信息,帮助研发人员对模型推理过程进行解构。在进行问题修复时,可以更有效地定位到知识缺失、指令遵循、逻辑推理等可能存在的具体问题。基于 CoT(思维链)提示的解释性。通过 CoT 提示技术可以让模型进行自我解释,并提升复杂逻辑推理任务处理性能。CoT 提示技术要求模型在生成答案之前,先展示其思考过程,这不仅仅是直接给出4849大模型安全实践(2024)答案,而是包括了推理、分析和解释的步骤。通过促使模型更深入地理解问题,可以让模型的最终生成的内容更全面、更有逻辑性以及具备解释性。基于模型内生的机制可解释性。一些新的大模型的可解释研究尝试去解释大模型运作过程中的内在认知。虽然大模型在一些场景中生成的内容是没有风险的,但这有可能是模型被训练的不去表现风险,模型的内部可能仍然保留了一些具有风险的内在认知。通过观测大模型内部和外部的权重变化,可以推断模型是否存在虚构、欺骗等模型内生认知的潜在风险。另一方面,知识编辑一的技术,通过分析风险样本,定位模型的风险区域。对其参数进行精确的修改后,可以对风险问题进行一定程度的修复。尽管大语言模型的解释性方法层出不穷,但是随着模型的参数规模不断增长、基准数据集的缺乏、商业化因素导致模型闭源性问题,给大模型应用的解释性研究带来了更大的挑战。未来如何实现大模型由内到外的全面可解释是大模型可信领域需要重点攻克的难题。同时,企业和机构在追求大模型性能表现的提升过程中,也需要关注模型解释性方面的研究,给用户和监管机构同步呈现模型决策的解释性依据,保障大模型应用的可控性。3.3.2 大模型的可标识和可追溯 AIGC(生成式人工智能)目前已经开始逐渐替代传统的 UGC(用户生成内容)和 PGC(专业生成内容),成为内容供给的来源之一。这也导致大模型被恶意滥用的风险也在不断增加。对提供生成式服务的大模型应用平台,需要具备对生产内容的追溯能力,来应对大模型能力被恶意使用后的可追责。对常规的内容类平台,也需要对 AIGC内容进行主动标注和监控,对潜在的 AIGC 风险进行及时感知。数字水印追溯。数字水印通过将指定的信息嵌入模型生成的内容中,来对模型生成内容的生产模型和生产者进行溯源。一方面可以保护生产者的版权信息,另一方面当生成的内容出现安全问题时,可以用于追溯来源信息。数字水印技术主要需要解决的 2 个技术难点是水印的不可见性和鲁棒性。对于水印的不可见性,需要做到用户无感,将水印嵌入到数据中时不影响用户对于数据的使用,原数据与嵌入水印数据差别尽可能小,在视觉和各种场景使用上无法区分。对于水印的鲁棒性,在保存读取或传播过程中信息可能存在丢失,嵌入和提取整条链路需要有校验和纠错的能力,避免错误解析水印信息,此外带有水印的信息在传播过程中会有不同程度的变换,例如,对图片的模糊、压缩、裁剪、旋转、录屏等。水印算法也需要具备可能存在的各种样本干扰,使得嵌入后的信息在多种变换后仍能保持稳定性,准确的提取水印信息。来源:蚂蚁集团 图 3-18 数字水印的应用流程 AIGC 检测技术。AIGC 检测是用于标识内容是否由 AIGC 技术生成或者被 AIGC 技术篡改。在目前 AIGC 的内容持续增长的环境下,AIGC 标识可以有效地帮助审核人员判别 AIGC 滥用带来的潜在风险,包括版权问题,学术污染等;在构建 AIGC 检测算法时主要面临 3 个5051大模型安全实践(2024)关键的挑战:面向生成方式的泛化性、面向传播和攻击手法的鲁棒性、面向审理研判的可解释性。来源:蚂蚁集团 图 3-19 图片 AIGC 模型类型(1)面向生成方式的泛化性,AIGC 模型从算法架构,模型权重和生成方式等各个维度可以有大量的组合形式,泛化性就是指 AIGC检测模型的各种通过建立全面的 AIGC 内容生成系统可以保障多样化的样本供给,保障模型训练和评估的泛化性。(2)面向传播和攻击手法的鲁棒性,AIGC 的内容在传播或者攻击时,其分布会被不同程度干扰,鲁棒性是指 AIGC 检测算法在被传播或者攻击后,仍然要保持一定的检测性能。因此,在构建 AIGC 检测算法时,需要基于多种攻击手法,通过对抗训练的方式来提升算法的鲁棒性。因此,在构建 AIGC 检测算法时,需要基于多种攻击手法,通过对抗训练的方式来提升算法的鲁棒性。表 3-2 AIGC 图片的攻击类型 攻击等级 攻击类型 描述 L1 自然干扰 主要是指原图在直接传播过程中受到的简单干扰,包括JPEG 压缩、视频压缩、Gamma 校正、对比度、亮度等。L2 主动干扰 对原图进行编辑后带来的干扰,例如截图、编辑涂抹、图像拼接、噪声干扰、旋转、截屏、尺度缩放、翻转、滤波、局部篡改、像素抖动。L3 混合干扰 主要是指通过社交媒体平台上传,经历传播后带来的混合类型的干扰,通常是 L1 和 L2 中的多种干扰形式的组合。L4 物理干扰 通过拍照、录屏、打印等物理媒介的形式进行传播后带来的干扰。来源:蚂蚁集团(3)面向审理研判的可解释性,对被标识为 AIGC 生成的内容后,需要提供解释性的信息,来辅助审核人员做出决策判断。例如,在一些证件的审核场景可以标识出被篡改的区域或者字段,来让审核人员进行进一步的核实;在论文审核的场景可以标识出疑似 AIGC 的文本段落和 AIGC 文本占比,来治理学术界里滥用 AI 的现象。3.3.3 大模型的指令遵循 大语言模型可能会输出偏离用户的指令结果,这会影响大模型在执行新指令和扩展任务时的效果和可控性。业界有多个公开的数据集,可以用于评估模型的指令遵循的能力,包括AlignBenc,AlpacaEval等。大模型指令遵循能力主要可以从几个方面进行优化。监督微调阶段。基于高质量的指令数据集对大模型进行监督微调是最常见的优化方法之一。而现有的指令数据集通常受限于质量、多样性和创造性,因此,如何高效的构建指令数据是目前重要的研究方向之一。基于人工构造和筛选可以获得小规模的高质量数据集,通过改写技术,可以进一步对指令进行同义词替换、风格迁移和知识迁移等操作,提升泛化性,但是其多样性和创造性仍然非常受限。Self-instruct 框架基于大语言模型根据少量的种子数据来生成大规模的指令数据,再通过过滤和聚合来构建高质量的指令数据集,整个过程减少对人工标注的依赖,降低了数据获取成本。5253大模型安全实践(2024)强化学习阶段。将人类对指令执行的反馈纳入训练过程可以进一步提升模型对指令执行的效果。通过引入强化学习算法(比如 PPO、DPO 算法等)来训练模型,使其在遵循指令方面逐步优化,以获得更好的反馈和表现。此外,还可以通过对抗训练来提高模型对异常或误导性指令的抵抗力。指令优化方面。指令编写的方式对最终的执行结果也很重要。一个模糊的指令可能会导致模型产生无关或低质量的输出。对指令的优化有几个方向,例如明确任务的输入和输出格式、提供任务示例、把复杂任务分解为多个子任务等。另一方面。在多模态的任务中,把一些概念性的指令,以描述性的形式进行改写,也可以有效地提升任务执行的效果。3.4 大模型安全评测技术研究和进展 为确保大模型能在实际应用中发挥最大的效果,防止潜在的风险和滥用情况的发生,一方面大模型在上线应用前需要进行完备的安全性评估,另一方面对投入应用的大模型需要进行动态监测。通过测评可以及时的发现潜在的安全性、可靠性和可控性问题,辅助研发人员提升系统的鲁棒性和安全性。大模型的评测主要包括通用能力和安全性两个方向。通用能力是指大模型在各类任务中的表现,包括理解能力,任务处理,逻辑推理等。安全性则覆盖了内容安全,数据安全,价值观等方面。目前,信通院、智源研究院等机构都发布了针对大模型各能力维度的评测体系,从技术、应用、安全等方面对大模型应用进行全面的评测。在大模型的安全评测领域,重点关注的技术挑战有以下几个方面。来源:蚂蚁集团 图 3-20 大模型安全性评测链路 考纲试题的全面性。基于大模型应用形式目前正在不断涌现,从早期的问答式的文本的交互,到图文音视的综合型的理解交互,再到目前正在持续增长的 Agent 类型的应用模式。因此,对模型的安全评估首先需要考虑对多模态和各种应用场景的覆盖。此外,评测试题也需要全面覆盖大模型应用中可能产生的安全问题的类型。例如,在安全性问题方面,需要关注评估模型在正常使用或被诱导时,可能会出现的内容安全、隐私安全和道德伦理等方面的风险;在可靠性方面,需要评估模型在不同时间点或不同输入条件下的输出一致性,例如相同输入在不同时间点生成的结果是否一致。在可控性方面,需要评估模型在和用户交互时是否能够保持输出内容和用户意图一致。对抗样本的多样性。要评估大模型应对复杂的语言环境和不同程度的攻击手法时的对抗鲁棒性,可以在已有的评测试题的基础上,通过生成算法构建更加多样化的测试样本。针对日常使用场景,通过同义词替换和改写技术,可以生成出不同措辞风格的样本,提升测试样本的泛化性。针对恶意攻击的场景,一方面,可以通过把一些敏感词通过文字同音词替换或者把输入图像进行风格迁移的操作来构造出突变的样本,扰乱模型的对风险意图的感知;另一方面,可以利用大模型的运行机制,通过生成具有诱导性质的 prompt(提示词)或者5455大模型安全实践(2024)多轮交互引导的形式来诱导模型绕过防御策略输出带有风险的内容。评估研判的自动化。大模型评测场景中,面对不同的模型基座、模型版本、模型的 prompt 配置、以及 workflow 的设计,大模型输出的内容都是不同的,而最终生成内容的安全性是未知的。传统的做法是通过人工对模型返回的内容进行研判标注,根据研判标签生成评估报告,基于人的研判通常会耗费大量的人力和时间成本,同时也会因为人和人之间的认知差异产生研判标准上的分歧。基于传统模型进行风险识别可以一定程度上对高置信的判断进行自动化处置,但是受限于能处理的内容长度,高精度的要求以及长尾疑难问题的理解等问题,无法完结替代人工进行自动化的研判。利用大模型服务进行自动化研判(LLM-as-a-judger)是一个新的研究方向,主要有两种形式。一种是基于商业化的大模型服务,构建研判策略,但是依赖三方 API 会存在成本高,数据隐私,可控性差,性能难调控等问题。另一种则是构建专用研判大模型,例如 PandaLM、JudgeLLM 等。总体来看,大模型的评测在行业中已经有很多进展,但是相对于技术的发展,评测的研究是滞后的。目前大部分的评测主要是针对内容类的场景,随着大模型的技术快速发展和广泛应用,对 Agent 这种复杂大模型应用架构和未来通用 AGI(通用人工智能)的评估是当下面临的挑战。这需要政府,高校等机构,联合有相关经验的企业共同合作,制定标准建立面向未来的大模型可信评测框架,并推动落地,确保大模型技术的安全可靠,为社会带来积极影响。四、大模型安全行业实践与案例分析 4.1 金融领域大模型安全实践 一、案例介绍 支小宝 2.0 是一款基于大模型技术的智能金融助理,是基于百亿级金融知识数据、千人千面的资产配置能力、可控可信的围栏安全技术以及多智能体协同模式来构建的智能金融助理,重塑了理财问答的体验,从原本机械化的回答,到逐步逼近人类专家的沟通分析水平。它致力于为用户提供透明可信赖的金融服务和高度智能化的专业建议,为数亿投资者,随时随地提供免费的服务。支小宝服务的用户群体庞大,其在大模型应用过程中的安全问题尤为重要。图 4-1 金融领域大模型安全实践案例 二、大模型安全实践案例描述 支小宝 2.0 作为一款先进的人工智能产品,自始至终将安全性和合规性作为核心价值。在信息充斥的数字时代,保护知识产权、商业秘密、个人隐私以及遵守法律法规至关重要。因此,支小宝采取了一系列全面而深入的安全措施,确保支小宝的技术和服务不仅高效、创新,而且安全、可靠。5657大模型安全实践(2024)(一)大模型安全在各环节的落实措施 1、训练数据安全 知识产权和商业秘密评估:使用境内外关键词和分类模型对中文、英文及代码语料进行预清洗,识别并处理隐私风险。境外语料清洗更深入,持续迭代并新增英文隐私识别模型。截至 2024 年 4 月,清洗风险数据达千万条。民族、信仰、性别评估:对境内外语料进行预清洗,采用两千余关键词和通用分类模型,覆盖偏见歧视风险。境外语料清洗更严格,新增数千英文宽泛词和 2 个偏见识别模型。截至 2024 年 4 月,清洗风险数据百万条。2、算法模型安全 支小宝通过复合方法确保模型安全:1.预训练语料清扫,清除200 亿数据中的 3000 万毒性内容;2.安全指令和知识微调,涵盖 60万专业领域法规等知识;3.安全价值观对齐,基于无害、有用、真实原则,强化学习打标超50万数据;4.通过多阶段防控,包括pretrain、sft、rlhf,保障模型安全性。3、系统平台安全 为确保系统平台安全,采取了四项措施:1.依据国家网络安全、数据安全和个人信息保护相关法律法规,结合公司实际,制定网络安全管理、审计、密码管理及数据全生命周期安全管理制度;2.加强网络安全防护,定期进行安全审计和漏洞扫描,并持续加固;3.实施严格的数据访问控制和全生命周期保护;4.细化安全应急流程,通过技术与制度保障及时发现和处理安全问题。4、业务应用安全 自建大量多维度的评估数据集,共同用于衡量模型生成过程的透明性、模型生成结果的准确性以及模型全链路系统的可靠性。在零样本和少样本设置下,结合测试数据中的标准答案,从准确率、合理率、风险率等多个角度,以日频率进行自动化评估和人工评估,进而得到相应的评估指标,确保业务应用的安全性。(二)大模型安全技术实现 针对支小宝业务需求实施了“安全围栏”策略,开发了包括底线和意图识别、情绪分析、主题分类在内的内容理解技术,实现风险内容的可控生成。在产品应用端,重点加强了端侧安全措施,如实施安全权限验证,以增强整体安全性。同时,评估框架覆盖内容安全、数据保护、科技伦理和业务合规四大关键领域,综合考量意识形态、隐私、知识产权、商业秘密、信仰、性别等多方面风险。针对金融业务,通过内嵌一致性检验和金融价值对齐,确保数据的准确性和金融逻辑的严格性。三、大模型安全措施成效 通过持续的技术创新和严格的安全管理,支小宝在评估测试中展现了卓越的表现,语料、模型、安全等各项安全指标均达到了行业领先水平。对于用户来说,支小宝致力于打造智商、情商、财商三商在线的理财助手,让普通投资者也可以获得少数人才拥有的人工理财经理体验。它能以趋近真人行业专家的服务水平,帮助金融机构为用户提供高质量的行情分析、持仓诊断、资产配置和投教陪伴等专业服务,结合用户持仓状况引导合理配置,帮助用户避免追涨杀跌的非理性行为,从而培养良好的理财观念和理财习惯通过对安全力的持续构建,可以为用户提供一个更加安全、透明的 AI 环境,同时为社会的可持续发展做出积极贡献。支小宝不仅是一款产品,更是对安全承诺的体现,对社会责任的坚守。5859大模型安全实践(2024)4.2 医疗领域大模型安全实践 一、案例介绍 医疗 AI 助手是基于“百灵”大语言模型及新一代行业大模型在临床问诊、病史采集及文本撰写、临床辅助决策、个性化精准医疗、医患沟通及患者诊疗支持、学术研究、医学教育等临床领域的应用场景切入,研制符合上海市第一人民医院医疗应用特色的大模型技术平台。全面覆盖患者就医诊前、诊中、诊后三大环节。每个环节均有核心功能,患者无需在纷繁的产品界面寻找特定功能,只需与医疗 AI助理问答即可解决就医全流程咨询和陪伴问题。图 4-2 医疗领域大模型安全实践案例 从产品技术角度来看,构建数字导诊“陪伴式”的智能医疗平台,旨在通过与患者的多模态交互,根据患者的自然语言描述,准确了解患者的病情和就医诉求,并通过自然语言及语音的方式与患者互动,完成患者语义的理解及推理,告知患者目标科室挂号,提示相关的流程、院内就医路线等等,从而实现协助智慧医院医务导诊服务人员面向就诊患者,提供就医流程指导、就医预分诊、就医挂号、院内就诊路线提示等导诊辅助服务。二、大模型安全实践案例描述 医疗 AI 助手从数据处理、算法模拟、服务管理等三个层面,在合规性、安全性、可控性、可靠性基础上开展医疗“AI 大模型场景应用”稳定运营,促进新一代人工智能技术赋能智慧医疗产业,助力提高智慧医疗服务水平,提高人民群众对智慧医疗服务的获得感和幸福感。图 4-3 医疗领域大模型安全技术实现(一)大模型安全在各个环节的落实措施 1、训练数据安全 训练数据都经过了脱敏和隐私处理,具体逻辑:基于图像 OCR 技术和安全脱敏工具对图片图像或者文字等医疗文档进行脱敏处理。图片敏感信息的识别和马赛克/遮盖;医院红章、二维码等图片敏感信息进行遮盖文档敏感信息的识别和打码。2、算法模型安全 自研模型部署,推理框架,支持算法模型的 ToB 私有化部署,保6061大模型安全实践(2024)证算法模型的安全。提供加密模型训练解决方案,解决领域大模型提供方、领域数据提供方、基础大模型提供方之间的隐私计算信任问题,使得通过多方高质量数据和基础大模型构建领域大模型成为可能。3、系统平台安全 在大模型项目里,系统平台安全是一个至关重要的方面,主要围绕六项措施来展开:1.访问控制和身份验证:确保只有授权用户和系统能够访问大模型 API。2.数据加密:使用 SSL/TLS 等加密协议来确保 API 在传输过程中的数据不会被未授权访问。建立 API 防火墙来监控和控制进出 API 的数据流。达到防止恶意流量和攻击的效果。在API 平台会对传入的数据进行严格的验证,确保数据格式、类型和范围符合预期,防止恶意输入导致的安全问题。3.建立日志和监控体系:通过系统平台会记录 API 的使用情况来实时监控和日志分析,做到及时发现和响应安全威胁。4.安全审计:定期进行安全审计,评估 API和整个系统平台的安全性,确保没有安全漏洞。5.隐私保护:特别是在处理个人数据和敏感信息时,API 需要遵守数据保护法规,如 GDPR等。这包括数据脱敏、匿名化等技术,这些措施共同构成了大模型项目中的系统平台安全框架,旨在保护 API 和相关的数据资产免受未授权访问和潜在的安全威胁。4、业务应用安全 自建医疗垂类知识库,逐步开放应用到医疗垂类大模型进行知识库代答,基于医疗垂类内容的特殊性首创安全前置护栏解决方案,结合千万级自建知识库,保障内容可控生成,从领域、话题、意图多个视角量化内容防控,保证大模型生成结果准确性符合医疗垂类的安全性和准确性,进而确保业务应用的安全性。(二)大模型安全技术实现 在解决垂类医疗防御难点的过程中,医疗 AI 助手融合实际的业务场景需求,来聚焦防御难点构建大模型防御的解决方案,创建安全前置护栏的解决方案。在护栏中深度结合垂类医疗的知识库,来实现风险内容的可控生成。在端侧安全上医疗 AI 助手通过对数据加密和访问机制的控制建立端侧安全业务防线,来保障医疗数据和个人隐私在传输和存储的过程的安全性,同时还采取精细化的权限管理和前置护栏解决方案的措施来保障医疗数据的合法性和合格性。以此来构建端侧安全的业务防线。医疗 AI 助手遵循严格的隐私协议,对医疗数据进行脱敏和匿名处理,记录访问日志以追溯数据使用情况,并建立安全漏洞管理和应急响应机制。这些综合措施共同为医疗行业的数字化转型构筑了坚实的安全防线,确保医疗数据的安全性和隐私性得到最大程度的保障。三、大模型安全措施成效 医疗是一门严肃的学科,在产业应用医疗大模型项目中,安全技术具有至关重要的地位。这些模型通常处理大量的个人健康信息,包括敏感的疾病记录、治疗历史和生物识别数据。因此,确保这些信息的安全和隐私是项目成功的关键因素。安全技术为上海市第一人民医院的大模型项目带来的价值是多方面的,包括保护患者数据隐私、双向内容风险防控、管理风险和合规性以及建立公众信任。4.3 政务领域大模型安全实践 一、案例介绍“赣服通”是依托江西省一体化在线政务服务平台打造的移动服务平台,是推进“互联网 政务服务”的一项重要举措。“赣服通”以智能客服和数字人为技术应用场景来打造的政务 AI 助理,是具备高6263大模型安全实践(2024)度数据安全能力的行业大模型产品。通过千万政务语料训练来实现精准意图识别,智能追问反问和高频事项即问即办等功能。同时针对政务行业大模型应用中生成不可控、安全覆盖广、内容对抗强、时效要求高的挑战。构建安全护栏和安全防御两大核心能力,覆盖数百项大模型内容生成风险。图 4-4 政务领域大模型安全防御技术实现 二、大模型安全实践案例描述(一)大模型安全在各环节的落实措施 1、训练数据安全 在训练数据安全方面展现了高度的重视和专业性。由于处理的数据涉及公民信息、财务安全等敏感内容,政务大模型采用了高强度的数据加密技术,确保数据在存储和传输过程中的安全性。同时,使用境内外关键词和分类模型对中文、英文及代码语料进行预清洗,识别并处理隐私风险。此外,政务大模型还实施了定期数据备份策略,以防数据丢失或被篡改。在模型训练过程中,通过鲁棒性测试和安全多方计算技术,政务大模型能够应对各种潜在攻击,确保模型的稳定性和准确性。最后,安全审计和监控措施的实施,保证了数据的安全合规使用。综上所述,政务大模型在垂类政务行业中采取了全方位的安全措施,以确保训练数据的安全性和可靠性。2、算法模型安全 政务大模型在算法模型安全方面的优化措施主要包括:1 安全指令和知识微调,涵盖 30 万政务领域法规等知识 2.精细权限管理:实施严格的权限控制,确保只有授权人员能够访问和使用模型。3.模型加密与签名:部署前对模型进行加密,确保数据安全性,并使用签名验证模型完整性。4.入侵检测与防御:实时监测潜在攻击,并快速响应,保护模型免受威胁。这些措施共同提升了政务大模型在算法模型安全方面的防护能力。3、系统平台安全 政务大模型在系统平台安全的措施可以归纳如下四类:一是依据国家网络安全、数据安全和个人信息保护相关法律法规,结合公司实际,制定网络安全管理、审计、密码管理及数据全生命周期安全管理制度;二是严格的访问控制:通过引入访问控制机制,对各级用户进行权限管理,确保用户只能访问其合法权限范围内的数据和功能。三是实时行为分析:运用机器学习和数据挖掘技术,对用户行为进行实时分析,识别异常行为。四是细化安全应急流程,通过技术与制度保障及时发现和处理安全问题。这些措施共同构成了大模型项目中的系统平台安全框架,保护重要系统平台的稳定运行。4、业务应用安全 有别于基于确定性数据的传统应用,AI 应用的模式给安全带来全新的挑战,政务知识库有数据质量的风险,大模型生成的内容(AIGC)存在不可靠的风险,大模型要满足监管合规的要求。6465大模型安全实践(2024)面对这些挑战,小赣事在用户问答中融合了安全防护能力,针对AI 应用在智能审核,线上攻防等方向进行全面加固。智能审核方面,支持文本、图片、视频等多媒介智能识别,通过积累多年的法规梳理解读、监管指导建立丰富的规则库,基于海量的多维数据,支持对审核内容做准确的实体识别。线上攻防基于面向大模型原生的防御体系,可以应对单次 50 万量级的饱和攻击,通过百万级高质量题库识别各类攻击手段,降低拒答率。(二)大模型安全技术实现“赣服通”政务 AI 助手在端侧实施的安全措施取得了显著成果。首先,数据加密技术的广泛应用确保了训练数据在存储和传输过程中的安全性,有效降低了数据泄露风险。其次,鲁棒性测试与模型优化提升了算法模型的稳定性和准确性,使其在面对潜在攻击时更具抵抗力。同时,系统平台层面实施的身份认证、访问控制以及实时监控与异常检测机制,为政务大模型提供了坚实的防护屏障,确保只有授权用户才能访问系统,并实时监测潜在威胁。在业务应用层面,通过数据脱敏、保护及业务逻辑的安全验证,保障了业务数据的准确性和业务逻辑的合规性。这些安全措施的实施,不仅提升了政务大模型自身的安全性,也为政府机构的日常工作提供了可靠保障,促进了政务服务的安全与高效运行。三、大模型安全措施成效“赣服通”会同网信、公安等部门建立了安全管理机制,运用国产密码加密技术、区块链技术等强化保障安全,并加强政务数据运行监控,全面提升网络安全防护水平。深度融合了安全护栏和安全防御能力,在用户提问理解、提问风险决策、回答风险决策构建了全面的防御体系。助力江西省政府打造集“咨询、搜索、预约、提醒、评价”于一体的 AI 数字人智能客服“小赣事”,为办事用户提供一个更加便捷、安全的使用环境。4.4 人力资源领域大模型安全实践 一、案例介绍 AIGC 灵活用工直招平台创新性涵盖了智能化招聘、精准人才匹配、个性化推荐与培训、高效数据处理与分析以及风险防控与合规性等方面,平台核心功能包括:智能化招聘流程:通过大模型进行简历和面试筛选,为企业提供精准的候选人亮点与疑点分析。高效数据处理与分析:处理和分析大量的人力资源数据,形成人力解决方案。风险防控与合规性:人才招聘、培训和管理合规风险智能监测和预警。图 4-5 人力资源领域大模型安全实践案例 二、大模型安全实践案例描述(一)大模型安全在各环节的落实措施 1、训练数据安全 数据清洗和预处理:AIGC 灵活用工直招平台对收集到的和人力6667大模型安全实践(2024)资源相关的数据使用特定的技术,如去除 HTML 标签、噪声、重复数据,以及过滤掉包含敏感信息或不适宜的内容的数据,来清洗和预处理数据。隐私保护:由于人力资源行业涉及大量隐私,因此在训练数据过程中,需要对敏感数据进行脱敏处理,例如替换或删除个人信息,或者使用匿名化技术,如哈希函数或差分隐私技术来保护个人信息。数据均衡处理:为了降低数据收集的局限性对模型带来的影响,如数据偏向于特定群体或地区,无法反映整个人力资源市场的状况,通过综合使用数据平衡策略、数据采样技术、数据增强技术、序列标注和语义建模等技术手段,确保各类数据比例合理,提高人力资源模型对不同数据的适应性。数据质量评估和审核:收集到的数据会存在一些错误、恶意数据,如薪资水平异常高/低,通过可视化工具或数据统计与分析,可以识别数据中的异常值,提高数据质量。2、模型训练安全 数据加密。结合人力资源不同应用场景下的不同数据规模,不同业务需求,选择性综合使用同态加密、对称加密、差分隐私、哈希算法等技术,对模型训练中的数据加密,确保数据在传输过程中不被窃取,在存储时也不被非法访问。数据存储。由于人力资源数据涉及隐私,为了防止数据泄露、丢失,可以通过阿里云存储服务存储数据,使数据得到更好的保护。建立防火墙和入侵检测系统。通过部署入侵检测系统(IDS)、入侵防御系统(IPS),使用双因素认证等技术,或使用虚拟专用网络(VPN)或专用网络(如内部网络)等,来隔离敏感资源,监控异常行为,防止个人信息泄露,训练数据丢失。3、模型部署与使用安全 模型加密。在模型部署到生产环境前,对模型进行加密处理,确保模型在传输和存储过程中的安全性;通过模型水印技术,对模型进行唯一标识,防止模型被非法复制或篡改。访问控制。设立严格的访问权限管理机制,确保只有经过授权的人员才能访问和使用模型;监控并记录模型的访问和使用情况,及时发现并处理异常行为。4、模型维护与更新安全 模型验证。在对模型进行更新或维护前,进行充分的验证和测试,确保更新或维护后的模型性能和安全性不受影响,并定期对模型进行性能评估和安全评估,确保模型的持续稳定和安全。审核机制。建立模型更新和维护的审核机制,确保所有更新和维护操作都经过严格的审查和批准,并对模型的更新和维护过程进行记录和监控,以便在出现问题时进行溯源和追责。(二)大模型安全技术实现 1、云 身份验证。通过用户名和密码、生物识别(如指纹识别、面部识别)、数字证书、多因素身份验证(MFA)等手段验证用户身份,确保只有合法的用户才能访问人力资源云端系统。访问控制。通过配置 ACL 或 RBAC,将访问权限与对象或角色关联,精细地控制用户对人力资源云端数据中心资源的访问,防止未经授权的人员访问和篡改数据。安全认证。确保 HRSaaS 平台能通过国际权威安全认证,防止个人信息泄露,云端传输数据丢失,未经授权访问和其他信息安全威胁。数据加密传输。通过 SSL/TLS 协议、建立 VPN、运用对称加密技6869大模型安全实践(2024)术、哈希算法等技术,对传送到云端的数据进行加密,确保数据的机密性与完整性。2、边 数据加密。通过数据脱敏、对称加密技术、哈希算法、同态加密等技术手段对个人信息、薪资等在边缘侧传输和存储的数据敏感信息进行加密,确保数据机密性。安全更新和补丁管理。由于边端设备会直接处理员工信息、考勤记录、薪资变动等数据,因而要及时更新。通过建立自动化更新机制,可以定期检查边端设备的操作系统、应用程序和安全补丁;通过建立中央化补丁管理系统,可以集中管理边端设备的补丁需求,确保它们得到及时一致的更新。安全审计和日志记录。启用边缘设备的安全审计和日志记录功能,记录所有重要事件和操作,通过定期检查和分析日志,及时发现潜在的安全问题和威胁。3、端 用户培训与教育。明确培训目标,强调终端安全的重要性;制定具体的培训内容,提高员工对安全危险的识别,教授正确的安全操作流程;定期复习、测试,确保员工掌握和应用安全知识。设备选型与认证。选择经过安全认证和测试的终端设备,如具有安全启动、硬件加密和固件保护的设备。备份与恢复。通过数据库备份、云备份等技术定期备份终端设备上的重要数据,并确保备份数据的安全性。三、大模型安全措施成效 AIGC 智能直招平台通过实施一系列大模型安全措施,有效提升了平台的隐私保护能力、算法透明性和产品可控性,降低了机器幻觉带来的误导,有效提升平台的安全性、认可度和信赖度。4.5 智能助理领域大模型安全实践 一、案例介绍 个人助手大模型产品依托于“SenseNova”大模型的通用能力,主要功能包括:语音助手:问答、闲聊、写作、商品助手;输入助手:根据对话上下文内容生成回复、回复风格化;文档助手:文档润色、文案生成、文档问答等多方面功能。产品以大语言模型为基础捕捉用户需求,支持长上下文沟通,实现强个性化特色的需求捕捉,最终协助用户实现调用设备的对应功能的目的。图 4-6 智能助理领域大模型安全实践案例 二、大模型安全实践案例描述(一)大模型安全在各环节的落实措施 1、训练数据安全 底层数据方面,对于不同来源的原始语料数据,采用不同过滤规则,结合人工抽检,确保语料来源合法可靠。建立敏感词安全规则 语义分类器的组合机制对训练数据进行过滤,最终对全部历史语料进7071大模型安全实践(2024)行二次清洗处理,确保数据安全。2、算法模型安全 通过运用知识库挂载技术确保大语言模型输出内容安全、准确、专业。在典型的基于知识库的问答(QA)场景中,用户需要向大型语言模型(LLM)查询特定知识库,例如 PDF、Word 文件等的相关内容,然后文本长度对本地知识库超长文本的内容理解形成了障碍。通过 Embedding 模型对本地知识库进行一次提炼,提高整个问答系统的效率。Embedding 模型是一个精准的筛选器,帮助提取出知识库中对当前用户问题来说最重要的内容,以满足用户不同的提问需求,同时有效地减轻了LLM处理长文本的负担,有效缓解大模型幻觉问题,并面向不同用户提供一致性答案。3、系统平台安全 构建内容安全运营平台,包括应急响应平台、策略运营平台、人审标注平台、风险数据平台等。设计内容安全审核链路,包括机器审核、人工审核、投诉举报、用户治理等核心功能,实际敏感词条拦截可达百万级。同时具备健全的安全响应机制,第一时间快速处置内外部风险,结合分级报告、处理突发安全事件。同步筹备涉政专班人员,方便与监管部门对接。4、业务应用安全 具备健全的安全响应机制,第一时间快速处置内外部风险,结合分级报告、处理突发安全事件,后续筹备涉政专班人员,方便与监管部门对接。(二)大模型安全技术实现 建立 AI 场景下数据安全整套解决方案,保障 AI 数据隐私合规。基于客户需求和服务器情况,对模型进行公有云或私有云部署,适配相应环境,并对稳定性、安全性进行维护。在云端应用 Embedding 模型相关技术时,面向国家监管要求,提供安全回复审核能力模型和人工黑名单库,保证大模型回复安全的通过接口调用模型能力。同步推出端云协同的综合方案,会在建立端侧本地隐私知识库的基础上进行端侧推理,为用户隐私数据保驾护航。具体表现在通过文档上传的方式构建用户专属知识库,实现即问即答响应快的特性;以及本地文档手机离线也可进行总结摘要与问答,无需担心机密信息联网泄露。另外在本地安全模块的基础上实现意图分流,所有涉及隐私的数据及 query 等,将全部基于端侧模型处理,实现终端的隐私保护。三、大模型安全措施成效 个人助手大模型产品推出以 AI 安全为核心的大模型安全保障体系,在底层数据、模型技术、配套机制、业务应用等层面实行完善的解决方案。进行全面完整的知识划分,有效缓解大模型幻觉问题;建立安全测试集验证流程有效识别各个风险维度,提升算法模型的可解释性和可控性。大模型安全策略遵循了人类价值观,契合用户意图、形成可信可靠的大模型应用产品。五、大模型安全未来展望与治理建议 5.1 未来展望 大模型发展空间巨大,平衡机遇与安全风险挑战成为大模型发展的关键保障。大模型的优异能力表现给产业带来太多惊喜,在强大算力、海量数据支撑下,大模型将会在越来越多的领域超越人类,通用人工智能成为可能。与此同时,也将面临着大模型浪潮给社会7273大模型安全实践(2024)安全带来的巨大冲击,如研发过程中引发信息泄露、价值对齐、机器幻觉等问题,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。人类尚未准备好如何绝对安全“驾驭”大模型更好的为人类服务大模型的风险挑战比以往任何时候都严峻。大模型的安全问题引起了全球范围内的广泛关注,它不仅关系到技术本身的稳健性,还涉及伦理、法律、社会等多个层面。大模型安全成为学术界、产业界、政府部门共同关注的议题,社会各界正在寻求平衡创新与风险管理的有效策略,以促进人工智能技术的可持续和负责任的发展。随着人工智能技术的不断进步,确保大模型的安全、可信、可靠、可控,已成为推动科技创新、产业健康发展,维护社会秩序和保障个人权益的重要任务,需要全人类社会的共同关注和努力。需要使用系统化思维去洞察、捕捉和评估大模型系统中可能的隐患及其影响,如数据的安全与合规、模型结果测试与验证、监控与审计等。大模型安全问题不容小觑,也不能仅靠每个环节独立思考,应该体系化一盘棋考虑,从而构建完备的大模型安全屏障。大模型标准需求迫切,全面支撑大模型安全测试验证能力建设。当前,大模型技术迅猛发展、行业数据迅速汇集、创新应用不断深入,产业发展脚步加快。大模型企业正在各自为政奋力开展技术研发,积极尝试新的商业模式,在这样的背景下,行业共识尚未形成,大模型标准化建设尚未跟上技术和产业发展步伐,标准体系建设需求迫切。大模型安全急需总结先进经验、统一行业共识,以系统科学的理论和方法为基础,运用标准化的工作原理,不断优化标准内容,构建大模型安全指标体系和测试验证标准体系。测试验证是大模型安全的有效手段。从传统人工智能的判决式到大模型的生成式的转变,大模型测试自动化程度低,基于大模型安全标准打造高效一致的测试验证体系将会变得越来越重要,包括构建大模型安全测评能力和大模型安全自动化验证工具,涉及测试方法、测试对象、测试任务、测试指标、数据集、工具平台等。随着大模型技术的不断发展,新的安全威胁和挑战也会不断出现,安全标准和测试验证能力也需要与时俱进,以适应新的技术发展和安全需求。大模型安全基础设施尚不完善,构建大模型基础设施迫在眉睫。目前,国外对大模型软硬件基础设施已形成技术壁垒,大模型训练框架、部署框架等各类软件基础设施,以及芯片、处理器、服务器等各类硬件基础设施在很大程度上依赖国外,如 TensorFlow、PyTorch、NVIDIA GPU 等。国内自主安全可控的大模型软硬件基础设施正在实现产业突破,但是总体来说我国大模型安全基础设施尚不完善,完全大模型风险因素繁多,系统化构建大模型安全体系屏障成必然。面对动辄百亿、千亿级参数规模的大模型,其超大参数体量以及计算复杂性致使大模型技术比以往任何人工智能技术都复杂许多,涉及算力、网络、数据、模型结构、训练方法、产品化落地等众多环节,每一个环节都需要处理兆级的海量数据。且作为数据驱动型技术,其计算过程更像一个“黑箱操作”,大模型安全性、可靠性、可控性等挑战空前巨大。在大模型研发、训练、部署、应用的任何技术的环节都可能带来风险,风险因素繁多,任何环节的风险都可能带来整个系统的安全挑战,原有的安全体系已经难以适应新情况。大模型安全需要构建一个全面、协调、系统的安全管理框架。大模型系统的安全环环相扣,涉及数据保护、可解释性、鲁棒性、伦理责任、合法合规等方面。大模型安全是一个统一的、协调的复杂系统,7475大模型安全实践(2024)自主的大模型安全软硬件环境生态尚未形成。构建自研软硬件适配的大模型基础设施体系的需求急迫。搭建软硬件适配测试平台,可对各类软硬件进行兼容性测试和性能评估,确保其在大模型基础设施中的稳定运行;支持 GPU、TPU 等 AI 芯片研发,实现国产 AI 芯片的自给自足;实现高速互联网络和分布式计算网络基础设施的持续升级,支撑超大规模算力资源的共享和高效利用;推动智算中心的持续升级转型,实现智能计算与存储一体化;研究“端、边、云”协同过程中的数据安全技术,确保数据安全。大模型安全实践经验尚浅,标杆场景为大模型安全实践指明方向。大模型安全应用是一个新兴领域,研究和应用尚处于起步阶段,因此缺乏成熟的参考案例来指导实践。大模型企业仍在探索如何有效地确保大模型的安全性,在原有的传统数据安全、信息安全、系统安全等经验基础上,进行能力迁移,应用于大模型安全。大模型安全问题变得更加多样化和难以预测,原有的安全技术也需要不断调整和优化,并通过企业不断探索和实践,逐步积累经验,建立一套成熟的安全实践体系,这对于指导未来的大模型安全实践至关重要。安全不仅仅是一个技术问题,更是一个战略问题,大模型企业将采用更为先进的安全技术和工具,如数据加密、联邦学习、访问控制、异常检测、测试验证等,来增强大模型系统的安全性。同时,通过建立专门的安全团队,与研发、产品、运营等部门紧密合作,共同研制、实施安全策略、构建安全技术屏障、防范未来安全风险。随着新的大模型安全实践的不断深入,将涌现出大量成功案例,应用标杆的集体爆发将为大模型安全构建实践范式,打造高价值的参考体系。大模型安全“以人为本”是核心,坚持发展负责任的 AI 是大模型安全立足点。技术的发展始终是以拓展人类的能力、服务于人为目的的,大模型安全以“以人为本”作为核心,才能保证其发展方向不偏离,确保技术的发展既符合伦理道德,又能够为人类社会带来积极的影响。“以人为本”的大模型安全理念强调的是在大模型的技术和应用过程中,始终将人的利益、需求和安全放在首位,大模型的设计者、开发者和使用者都必须始终保持“以人为本”思维,需要切实保障用户和社会的安全与利益。任何背离“以人为本”核心发展的大模型技术和应用最终都将导致安全风险和挑战,当大模型的发展忽视了人的需求、权利和福祉时,就可能造成不可预测的后果,例如侵犯个人隐私、导致社会不公平、伦理道德冲突等问题。发展“以人为本”的人工智能就是要发展负责任的人工智能,即对人类负责、对社会负责。坚持发展负责人的 AI 是大模型安全立足点,据此构建健康、可靠的大模型安全生态,以确保大模型的安全和效益能够与社会的发展同步,为人类带来真正的福祉,是未来人工智能可持续发展的基本保障。5.2 治理建议 构建集大模型安全政府监管、大模型安全生态培育、大模型安全企业自律、大模型安全人才培养、大模型安全测试验证“五维一体”多元参与、协同共治的治理框架。7677大模型安全实践(2024)来源:中国信息通信研究院 图 5-1 大模型安全“五维一体”治理框架 大模型安全政府监管。一是加强大模型合规体系建设,以高标准、严要求为准则,确保大模型发展与社会责任并行不悖,这也是确保大模型安全性的重要措施,政府应加强大模型相关法律法规和政策的宣贯工作。二是为企业提供大模型安全公共服务,包括信息公开、业务指导、制定伦理规范操作指南、风险管理和合规指引、搭建大模型公共服务平台等,为企业和个人提供高效的信息渠道和行为引导。三是建立监管和应急响应机制,设立专门的部门监督、管理大模型研发与应用,定期对大模型的安全性进行监督检查,并建立应急响应措施,以便在出现大模型安全问题时能够迅速采取措施,防控风险蔓延,确保大模型安全。大模型安全生态培育。一是建立全面的安全教育和宣传体系,提高公众对大模型安全的认识和理解,通过教育和宣传提升全民的数字素养。大模型的应用已深入人们生活和工作的方方面面,培养使用者对于大模型风险的识别和防范能力,提升全民人工智能安全意识和素养,是构造大模型安全生态的基础。二是构建大模型安全社会监督体系,构建一个全民参与的大模型安全体系,完善反馈机制,建立公开透明的信息共享平台,让监管机构、企业和公众能够及时反馈和了解大模型安全的最新动态。大模型安全企业自律。一是构建企业大模型合规体系,制定相关安全制度和准则。企业应制定严格的内部安全政策和操作规程,确保大模型的研发、部署和运维等过程符合行业安全标准和法律法规要求。二是加强企业安全培训与安全意识。作为生成式人工智能服务提供者的企业主体应确保其产品安全,强化企业安全环境,定期对员工进行大模型安全相关的培训,强化安全意识,确保每位员工都能理解并遵守安全操作规范。三是建立安全监督机制,设立专门的安全监督岗位,并规定其职责,使企业能及时发现并处理潜在的安全问题,并通过建立产品应用跟踪机制,对风险产品及时召回,不断优化安全策略,降低大模型产品在企业内部和外部的风险。大模型安全人才培养。一是加强大模型安全人才队伍建设,构建大模型安全学习体系,构建跨学科学习,将人工智能、网络安全、数据科学等领域的知识进行整合,以培养具备综合能力的人才队伍。二是鼓励核心技术攻关,比如如何攻克大模型数据安全、模型安全、系统安全和应用安全等技术难题,如何构建内生安全、外生安全、衍生安全的防御体系,并不断跟进前沿技术发展,以应对新的挑战。三是推动高校、研究机构与企业的紧密合作,实现资源共享,促进大模型安全领域人才培养与市场需求的对接。大模型安全测试验证。一是推进大模型安全标准研制,研究和借鉴国际上已有或在研的大模型安全标准和最佳实践,加强大模型安全测试验证技术研发和标准化工作,加速标准应用转化。二是加速78大模型安全测试验证能力建设。开发和标准化一系列大模型测试验证工具,构建标准化测试数据集,开展大模型安全测试验证示范场景,快速构建体系化大模型安全测试验证能力。三是鼓励第三方机构开展大模型安全测试评估业务。通过政策引导、资金支持和市场激励,鼓励有资质的第三方机构提供专业、独立的大模型安全测试验证服务,帮助企业及时发现和解决大模型的安全隐患,提升整个行业的安全水平,从而推动大模型产业健康发展。

    浏览量220人已浏览 发布时间2024-07-08 41页 推荐指数推荐指数推荐指数推荐指数推荐指数5星级
  • 腾讯:2024大模型十大趋势:走进“机器外脑”时代报告(51页).pdf

    走进“机器外脑”时代2024大模型十大趋势人工智能正在迅速发展,大模型技术正成为赋能各行各业的关键。从算力底座、智力增强到人机协作,大模型正在重塑人类社会,成为我们可依赖的外脑。10趋势1 算力底座迈向十万卡集群量变,速度和效率双提升28趋势6 游戏环境大模型与游戏共生,打造Agent最佳训练场15趋势2 推理分析LLM带来推理能力跃迁,开启“智力即服务”32趋势7 移动革命端侧模型优化带来应用入口变革18趋势3 创意生成AIGC应用爆发,降低专业创作门槛35趋势8 具身智能人型机器人与大模型共同进化,为外脑提供“躯体”22趋势4 情绪感知LLM赋予机器情感价值,打开人机陪伴市场45创新者预见39趋势9 开源共享开源生态实现降本普惠,推进外脑共享和迭代25趋势5 智能制造大模型提升工业新质生产力42趋势10 人机对齐人机对齐是大模型产品的重要竞争力,也关乎通用人工智能的未来CONTENTS目录序言序言1 走进“机器外脑”时代序言2 “人物-行为-场景”一体化的AI新范式序言3 共创、共建、共享智能美好未来020508编委会司 晓|腾讯副总裁 腾讯研究院院长马利庄|上海交通大学特聘教授 人工智能研究院副院长 吴运声|腾讯云副总裁 腾讯云智能负责人 优图实验室负责人张立军|腾讯公司副总裁、腾讯华东总部总经理 吴永坚|腾讯云副总裁 腾讯云智能产研负责人 腾讯企点研发负责人好 好|腾讯云战略研究院院长顾问主编策划研究团队联合出品徐思彦王亚鑫编写委员汪铖杰王 强杜晓宇马晓芳袁晓辉李瑞龙陈楚仪曹建峰白惠天刘莫闲王 鹏陈玉珑李永露张志忠李嘉麟刘 俊刘 永黄小明戚 蕴朱 洁梁 鹏姚 荪谢 睿陈梦凡张 栋王 枢刘 琼腾讯研究院 上海交通大学腾讯优图实验室 腾讯云智能 腾讯青腾王川南李 侃PREFACE序言PREFACE序言1继ChatGPT开启大语言模型引领的新一轮人工智能革命以来,我们持续见证了人工智能领域技术的加速迭代,在过去的一年里众多公司如Google、Midjourney、Adobe以及Inflection等,都推出了创新的模型和产品,标志着大模型技术的成熟和大规模应用的开始。今年2月,Sora的出现再次震撼了技术界,预示着我们可能很快就会见证更多令人兴奋的技术突破。过去半年,我们以日为单位更新“AI每日动态”,这可以充分反映出来,AI技术的发展日新月异,以日来统计的话也是毫不过分的。在海量GPU和新一代大模型的加持下,人工智能在三个方向上有了实质性的飞跃。第一是推理能力。大语言模型为人工智能带来了所未有的推理能力,极大地扩展了机器的认知边界。这种推理能力的跃迁得益于LLM在理解和生成自然语言方面的巨大进步。它们能够解析复杂的文本,提取关键信息,进行逻辑推理,并生成连贯、有见地的回应。这使得LLM能够处理各种知识密集型任务,如法律分析、市场研究、科学发现等,为个人和企业提供了强大的智能支持。以往人类智力难以企及的科学探索高地,都可以在AI的帮助下实现。例如,英伟达的“地球 2 号”项目,旨在创建地球的数字孪生体。模拟整个地球的运行,以预测其未来变化。通过这样的模拟,可以更好地预防灾难,更深入地理解气候变化的影响,从而更好地适应这些变化。通过这样的模拟,可以更好地预防灾难,更深入地理解气候变化的影响,从而让我们能够更好地适应这些变化。随着更高级的推理智能被开发出来,各行各业都将有机会拥有“机器之心”。AI 将引领新的服务模式,即“智力即服务”(IQaaS),该模式的一个重要特征将是机器的推理能力以在云端的方式、通过大模型提供给用户,“AI数字员工”将进一步成为现实。大模型使机器不再仅仅是执行简单任务的工具,而是成为了人类的“智力外脑”。走进“机器外脑”时代司晓腾讯副总裁 腾讯研究院院长02序言走进“机器外脑”时代第二个方面是创意的生成。AI技术,尤其是AIGC,正迅速成为创意产业的一股颠覆性力量,为创意工作者提供了前所未有的生产力提升。今年2月,Sora的问世不仅是技术界的一次震撼,更是对未来创新潜力的一次大胆展示。AIGC技术通过文生文、文生图、文生视频等多种形式,使得创作、设计、分析等任务变得更加高效和易于实现。Sora和SUNO等现象级产品的出现,标志着AI生成内容的质量和多样性达到了新的高度。它们不仅让普通人能够创作出接近专业水准的音乐和视频作品,而且正在快速改变媒体、影视和音乐行业的生态。这些技术的普及,降低了专业技能训练的门槛,使得创意表达更加通用化。现在,只要有创意想法,人们就可以利用AI这个强大的“创意外脑”,将灵感转化为现实。AI的这种能力,不仅为专业创意工作者提供了强大的辅助工具,也为普通爱好者打开了创作大门,使他们能够轻松实现自己的创意愿景。随着AI技术的不断进步,我们可以预见,创意产业将迎来一个更加多元、开放和创新的新时代。另一个方向属于广义的情感陪伴。Dan模式的全网爆火,不仅展示了AI在情绪理解与表达上的巨大进步,更凸显了其与人类情感交流的无缝对接。GPT4o等高级AI系统的自然交互体验,让人与机器的界限变得模糊,仿佛科幻电影 Her 中的情感故事正在逐步成为现实。AI技术在满足人类情感需求方面展现出巨大潜力,扮演起了人们的“情感外脑”。AI聊天机器人提供的心理咨询服务,以其24/7的不间断陪伴,为需要帮助的人们提供了及时的情绪支持和专业建议。在儿童领域,智能玩具不仅陪伴孩子们成长,更通过情感交互,培养孩子们的情感认知和社交技能。随着情感智能技术的不断成熟,数字生命的议题也日渐升温。一些创新尝试正在探索如何利用数字技术复刻已故亲人,为生者提供缅怀与思念的渠道。尽管这一领域还面临着诸多法律和伦理挑战,但其在情感陪伴方面的应用前景无疑为AI赋予了新的温度和深度。AI不再仅仅是冷冰冰的生产力工具,它正在成为人类情感世界中的一个温暖伙伴。随着技术的不断发展和应用的不断拓展,我们有理由相信,AI将在人类的情感生活中扮演越来越重要的角色,为人们带来更多的陪伴与慰藉。PRE-FACE103序言走进“机器外脑”时代在本报告中,腾讯研究院基于科技行业发展和腾讯自身在AI领域的深耕,提出了10个关键性的趋势,试图理解全世界范围内正在发生的AI巨变。与往年一样,我们从技术、应用、社会三个方面来预测AI给经济社会带来的影响。我们正在进入一个“机器外脑”时代。加速技术为大模型行业的发展提供了算力的保障。随着大模型与人机协作的深入,个体创作的门槛进一步降低,越来越多的个体借助大模型外脑成为“斜杠青年”、“超级生产者”,甚至开启自己的“一人企业”。端侧模型的优化将大幅提升提升移动设备的体验,开启全新的人机交互方式。在工业领域,多模态通用感知技术正在提升生产力,而游戏与大模型的共生关系为Agent训练提供了新的舞台。开源模型的成熟,为技术共享与创新提供了强大的生态支持。最后,人机对齐成为确保大模型安全与治理的核心议题,指引着我们走向一个更加智能、高效和安全的未来。这十大趋势共同勾勒出一个由大模型驱动的新未来。在这个未知和无限可能的时代,我们正在目睹AI如何将创意转化为现实,如何让个性化服务触手可及,以及如何为传统行业注入新的活力。AI让智力资源平权化,意味着无论背景或资源如何,每个人都有机会借助AI外脑实现自己的创意与梦想。这一变革不仅降低了创新的门槛,也为社会各阶层带来了前所未有的机遇。只要你拥有创新的想法并善于利用AI这一强大的外脑,即使在资源有限的情况下,也有可能以低成本创造出令人瞩目的成就。让我们一起走进这个“机器外脑”时代,见证人类能力的再次飞跃。PRE-FACE104序言走进“机器外脑”时代PREFACE序言2人物-行为-场景一体化视觉表达与理解是未来人工智能的重要研究方向。随着生成式人工智能以及通用人工智能大模型技术的发展,赋予了智能体感知理解、任务思考、持续学习的一系列能力,并通过直接的物理交互满足人类的各种需求。因而,在未来智能体可以承担更多的体力劳动和重复性任务,而人类则可以更加专注于创造性和思维类工作。其中,人物-行为-场景一体化视觉表达与理解是具身智能、智能生成等人工智能的核心基础,是链接物理世界的关键,一系列顶尖高校以及公司人员都已经下场研究这一新的AI范式。斯坦福大学李飞飞教授创建的公司就利用类似人类的视觉数据处理方式,使人工智能能够进行高级推理。她曾在温哥华TED演讲中表示,其研究涉及一种可以合理地推断出图像和文字在三维环境中样子的算法,并根据这些预测采取行动,这种算法概念叫做“空间智能”。为了解释这一概念,她展示了一张猫伸出爪子将玻璃杯推向桌子边缘的图片。她表示,在一瞬间,人类大脑可以评估这个玻璃杯的几何形状,三维空间中的位置,它与桌子、猫和所有其他东西的关系,然后预测会发生什么,并采取行动加以阻止。她说:“大自然创造了一个以空间智能为动力的观察和行动的良性循环。”她还补充说,她所在的斯坦福大学实验室正在尝试教计算机“如何在三维世界中行动”,例如,使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。英伟达CEO黄仁勋此前在多个场合强调了一体化视觉表达的重要性,并预测人形机器人将成为未来主流产品。英伟达近期发布人形机器人通用基础模型Project GR00T,希望能让机器人拥有更聪明的“大脑”。由Project GR00T驱动的机器人能够理解自然语言,并通过观察人类行为来模仿人类动作。“人物-行为-场景”一体化的AI新范式马利庄上海交通大学特聘教授 人工智能研究院副院长05序言“人物-行为-场景”一体化的AI新范式2024年5月,以“大模型具身智能”为主题的松山湖科学会议上,近40位院士专家围绕主题分享最新技术趋势和突破性进展。波士顿咨询公司(BCG)预测,到2030年,智能机器人系统可能给全球经济带来约4万6万亿美元的年增长价值。当前对人物理解的研究依旧是机器视觉的核心,但需要从单纯的人脸识别、动作识别等人物视觉技术逐渐转换为与场景交互的一体化表达范式。例如,高速动态场景中自动驾驶系统无法理解周围环境中人和物的多变行为意图,容易引发严重的交通安全事故;服务机器人无法预测儿童的意图,也成为家庭的安全隐患。其核心问题是人物行为具有多样性和歧义性,同样的行为在不同的场景下具有不同的含义,行为意图的歧义性必须通过时序序列分析才能进一步消除。因此,必须研究时序数据进行人物-行为-场景一体化视觉表达,而这就需要对多模态的数据进行联合分析。图灵奖得主Hinton教授在5月访谈中就表示多模态学习可以使模型更好地理解空间事物,因为仅从语言角度来看很难理解这些空间事物。当让模型成为多模态时,如果让它既能做视觉,又能伸手抓东西,并能拿起物体并翻转它们等等,多模态模型就会更好地理解物体。随着diffusion、视频生成大模型的不断发展,真实物理世界的规则先验将成为未来视觉、人工智能研究重点。相较于ChatGPT、图文大模型等生成式人工智能在低维空间探索世界,Sora等视频生成式人工智能开始初步在三维空间模仿真实世界,并以人更容易接受的视频形式加以展示,这样高精度仿真世界投影的出现,也展示出了算力以及算法的进步。Sora生成的视频令人惊讶更多在于它大颗粒度上符合受众对真实物理世界的观察与体悟,让人感觉如“亲眼所见”。其背后是对相关物理规律,如近大远小、自由落体等进行深度挖掘、数字化后的成果。然而,众多权威学者和业内专家发声强调,Sora在二维视觉信息的传播与时空维度的表现力上虽然独树一帜,但并未达到对真实世界的全貌进行全面刻画和模拟的高度,尚未形成严格意义上的世界模型。但瑕不掩瑜,能够生成看起来像是在三维环境中自然移动和互动的视频,已经可以看作是人工智能“虚拟创世”趋势的关键节点。PRE-FACE206序