1、彭厚文 腾讯混元多模态模型负责人目前专注于多模态基础模型研发、曾任微软亚洲研究院主管研究员。在人工智能领域国际期刊和会议如TPAMI、CVPR、NeurIPS等发表学术论文30余篇,担任Pattern Recognition期刊副主编,ACM Multimedia会议领域主席。演讲主题:腾讯混元多模态技术实践混混元元多多模模态态大大模模型型技技术术实实践践与与思思考考彭厚文腾讯混元多模态算法中心发发展展路路线线技术实践业务应用未来探索混元大模型的“前世今生”:从零自研、持续成长腾讯混元大模型正式发布2 23 3Q Q3 32 24 4Q Q1 1 混元位居沙利文测评的第一象限文生文支持256k
2、超长上下文,文生图开源首个中文原生DiT模型2 24 4Q Q2 22 24 4Q Q3 3 自研首个MoE多模态模型,文生文、多模态理解、文生图均位居SuperCLUE榜单国内第一梯队3 混元多模态发展路线图片、视频生成文字文字生成图片、视频文字、语音生成语音多种模态的生成式任务:生成即理解发发展展路路线线技术实践业务应用未来探索混混元元多多模模态态大大模模型型图、视频生文:输入是图像和视频以及文字指令,输出是对图像和视频的内容理解这张图什么意思?理解梗图:混混元元多多模模态态大大模模型型 预预训训练练与与模模型型结结构构(图视生文)核心技术要点视觉编码器图片:Vision Transfor
3、mer(ViT)视频:参数复用理解多图、多视频帧大语言(文本)模型理解视觉内容和文字的“大脑中枢”(图视生文)模型框架视觉-语言(文本)适配器链接视觉-语言模态的“桥梁”模型结构预训练多种数据源多阶段预训练策略混混元元多多模模态态大大模模型型 -后后训训练练精精调调与与强强化化1.分门别类:10大垂类topic覆盖理解/创作/问答/推理/专业领域等从粗到细分门别类构建和优化日志挖掘和飞轮对齐用户偏好基础识别知识问答内容创作分析推理多轮对话描述OCR图表数学代码1.日志挖掘:挖掘用户真实需求,牵引模型优化方向2.难点:数据杂乱、数据敏感(法律风险、用户隐私)数据预处理数据泛化数据清洗数据使用数据
4、筛选数据去重多轮合并多轮拆分过滤隐私数据答案改写纠错SFT:80%RM:10%效果:日志挖掘提升指令覆盖丰富度,提升指令理解2.任务多样复杂:图片复杂度 x 文本问题复杂度图表类型:统计类图表(柱状图、折线图、饼图、散点图、表格、散点图、热力图、复杂图表)思维类图表(程序流程图、数据流程图、业务流程图、工作流程图、架构图、树状图、思维导图、锥形、甘特图等)OCR图片类型:自然场景(街景、路标、广告牌、发票、商标、菜单.)互联网场景(文档、网页、代码、公式、APP截屏、海报.)RL:10%相似检索混混元元多多模模态态大大模模型型 -后后训训练练专专项项精精细细化化打打磨磨A:根据图片中的财务表现
5、摘要,腾讯2024年上半年的经营盈利为103,288百万元人民币,每股盈利如下:基本每股盈利为9.590人民币元,摊薄每股盈利为9.377人民币元因此,腾讯2024年上半年的经营盈利为103,288百万元人民币,基本每股盈利为9.590人民币元,摊薄每股盈利为9.377人民币元。Q:Markdown形式列出腾讯经营资料信息A:图像描述:一图胜千言更详细的描述图表型财报分析:极端长宽比图片Q:腾讯上半年情况怎么样?渲染现现状状:中文超越GPT-4V水平完完成成情情况况:6月评测结果与GPT-4o同处第一梯队,位居国内第一总总分分:比GPT-4v高15.6分,比国内第2名高5.4分(75.9 vs
6、.跃问70.5)分分项项能能力力:OCR,图像分析推理,图生文视觉数学,图像内容创作,多轮对话等5项能力达到国内第一SuperCLUE-V多多模模态态理理解解榜榜单单(8月月)位位居居国国内内第第一一,总总分分仅仅次次于于GPT-4o内内部部评评测测 外外部部评评测测混混元元多多模模态态大大模模型型:中中文文超超越越G GP PT T-4 4V V,居居国国内内第第一一梯梯队队 基基础础能能力力技术探索者潜力探索者腾讯 Hunyuan-vision 应应用用能能力力实用主义者竞争梯队国内大模型国外大模型卓越领导者技技术术思思考考1 1:数数据据1 Gartner报告预测,到2030年,合成数据