《2025字节跳动豆包大模型应用领域、竞争优势及字节AI商业布局分析报告(39页).pdf》由会员分享,可在线阅读,更多相关《2025字节跳动豆包大模型应用领域、竞争优势及字节AI商业布局分析报告(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、 2025 年深度行业分析研究报告 目目 录录 1.“更强模型”,是豆包大模型的持续追求.5 2.“更低价格”与“更易落地”,让豆包大模型落地千行百业.18 3.不止豆包,字节 AI 商业布局行以致远.26 图目录图目录 图 1 豆包大模型正式发布时已经被广泛应用.5 图 2 刚发布时的豆包大模型家族.6 图 3 2024 年 6 月的 FlagEval 大模型评测能力榜单(客观评测).7 图 4 豆包 视频生成模型支持多种画面比例/风格.8 图 5 2024 年 9 月豆包通用模型 pro 最新版本性能不断升级.9 图 6 豆包 视觉理解模型内容识别能力优秀.10 图 7 豆包 视觉理解模型
2、理解推理能力突出.10 图 8 豆包 视觉理解模型拥有细腻的视觉描述能力.11 图 9 Doubao-pro 综合能力持平 GPT-4o.11 图 10 豆包通用模型 pro 性能全面升级.12 图 11 豆包 3D 模型示例.13 图 12 最新的豆包大模型家族.13 图 13 Doubao-pro 模型位列 FlagEval 模型评测第一.14 图 14 火山引擎对话式 AI 实时交互服务方案架构.14 图 15 豆包 视频生成模型运用的相关技术.15 图 16 HybridFlow 能有效减少模型参数在两个阶段之间的重分片和通信开销.15 图 17 MLP Layer 和 FAN Lay
3、er 示例.16 图 18 北京大学-字节跳动“豆包大模型系统软件联合实验室”签约仪式.16 图 19 豆包大模型维持“极低”价格水平.18 图 20 豆包 视觉理解模型定价显著低于行业水平.19 图 21 方舟 2.0 拥有优质插件库.20 图 22 Prompt 优解功能介绍.21 图 23 火山引擎提供的 AI 落地方案.22 图 24 豆包大模型日均 tokens 7 个月时间增速达 33 倍.23 图 25 火山引擎汽车大模型生态联盟首批联盟成员.24 图 26 豆包大模型在 10-12 月各应用场景调用量增长.24 图 27 豆包 APP 版示例.26 图 28 豆包支持一键生成带
4、有指定文字的图片.28 图 29 豆包电脑网页版示例.29 图 30 豆包排名 2024 年 11 月 AI 产品榜 国内总榜第一.30 图 31 豆包能满足日常生活中的多重需求.31 图 32 豆包能满足教育领域中的多重需求.31 图 33 豆包的拟人化形象:可爱女生.32 图 34 豆包输入更方便,所以更“快”.33 图 35 Ola Friend 耳机与豆包 App.34 图 36 豆包离用户更近,所以更“快”.35 图 37 豆包模型能力更强,所以更“快”.35 图 38 2024 年 6 月豆包 MAU 迅速超过竞争对手.36 图 39 字节跳动旗下 AI 应用/硬件.37 图 40
5、 a16z Top 50 生成式 AI Web 应用榜单.38 图 41 a16z Top 50 生成式 AI 移动应用榜单.38 1.“更强模型更强模型”,是豆包大模型的持续追求,是豆包大模型的持续追求 2023 年,豆包大模型(原名:云雀)在字节跳动内部完成了上线,它也是首批通过大模型服务安全备案的大模型之一。在一年的时间内,豆包大模型在字节跳动内部50 多个业务被大量使用,以进行 AI 创新,包括抖音、头条等数亿 DAU 产品。2024 年 5 月,在 2024 春季火山引擎 FORCE 原动力大会上,字节跳动正式发布了豆包大模型家族。此时,豆包大模型已经能够日均处理 1200 亿 to
6、kens 文本、生成 3000万张图片。图图1 豆包豆包大模型正式发布时已经被广泛应用大模型正式发布时已经被广泛应用 资料来源:火山引擎官微,HTI 在豆包模型发布时,字节对于 AI 的目标是:更强模型:更强模型:大使用量才能打磨出更好模型。豆包大模型已经在字节跳动内部 50 多个业务、多场景应用中落地,经过千亿级日 tokens 的持续打磨,模型能力和推理效果得到市场的广泛认可。更低价格:更低价格:为了让每一家企业都能用得起大模型,火山引擎大幅度降低大模型应用推理成本。例如本次登榜的豆包通用模型 pro,其 32k 版模型推理输入价格仅为0.0008 元/千 tokens。更易落地:更易落地
7、:火山引擎 2023 年发布了一站式大模型服务平台火山方舟,通过模型即服务的理念,帮助企业在高效、安全的环境里应用各类模型。2024 年 5 月,火山引擎对方舟平台进行了全面升级,升级后的火山方舟 2.0 将大幅提升模型效果、核心插件、系统性能以及平台体验,帮助企业推进大模型的价值创造。当时的豆包大模型家族包括:豆包通用模型豆包通用模型 pro:字节跳动自研 LLM 模型专业版,支持 128k 长文本,全系列可精调,具备更强的理解、生成、逻辑等综合能力,适配问答、总结、创作、分类等丰富场景;豆包通用模型豆包通用模型 lite:字节跳动自研 LLM 模型轻量版,对比专业版提供更低 token 成
8、本、更低延迟,为企业提供灵活经济的模型选择;豆包豆包 角色扮演模型:角色扮演模型:个性化的角色创作能力,更强的上下文感知和剧情推动能力,满足灵活的角色扮演需求;豆包豆包 语音合成模型:语音合成模型:提供自然生动的语音合成能力,善于表达多种情绪,演绎多种场景;豆包豆包 声音复刻模型:声音复刻模型:5 秒即可实现声音 1:1 克隆,对音色相似度和自然度进行高度还原,支持声音的跨语种迁移;豆包豆包 语音识别模型:语音识别模型:更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别;豆包豆包 文生图模型:文生图模型:更精准的文字理解能力,图文匹配更准确,画面效果更优美,擅长对中国文化元素的创作
9、;豆包豆包 Function call 模型:模型:提供更加准确的功能识别和参数抽取能力,适合复杂工具调用的场景;豆包豆包 向量化模型:向量化模型:聚焦向量检索的使用场景,为 LLM 知识库提供核心理解能力,支持多语言。图图2 刚发布时刚发布时的豆包大模型家族的豆包大模型家族 资料来源:火山引擎官微,HTI 2024 年 6 月,智源研究院旗下的 FlagEval 大模型评测平台发布最新评测榜单。榜单显示,在闭源大模型的“客观评测”中,豆包大模型(Doubao-Pro-4k)以综合评分 75.96 分排名第二,仅次于 GPT-4,是得分最高的国产大模型。在“主观评测”中,豆包大模型同样排名第二
10、。FlagEval 大模型评测平台由智源研究院与多个高校团队共建,以人类认知能力的发展阶梯为基准,对齐大模型所能达到的认知水平。FlagEval 构建了大量原创的非公开评测集,确保评测质量和公正性。自 2023 年 6 月上线以来,FlagEval 已完成了 1000 多次覆盖全球大模型的评测。评测成绩显示,豆包大模型(Doubao-Pro-4k)的数学能力、知识运用、任务解决等多项能力在客观评测和主观评测中都有着出色表现。其中,知识运用和数学能力得分排名客观评测第一、主观评测前三,任务解决测试得分在主客观评测中均排名前三。图图3 2024 年年 6 月的月的 FlagEval 大模型评测能力
11、榜单(客观评测)大模型评测能力榜单(客观评测)资料来源:火山引擎官微,HTI 在随后的日子里,豆包大模型不断升级,其家族也不断壮大。2024 年年 8 月,月,豆包大模型正式支持实时语音通话。豆包大模型正式支持实时语音通话。火山引擎推出了对话式 AI 实时交互解决方案,搭载火山方舟大模型服务平台,通过火山引擎 RTC 实现语音数据的高效采集、处理和传输,并深度整合豆包 语音识别模型和豆包 语音合成模型,简化语音到文本和文本到语音的转换过程,提供卓越的智能对话和自然语言处理能力,帮助应用快速实现用户和云端大模型的实时语音通话。豆包豆包 语音合成模型:语音合成模型:解锁豆包同款音色,提供自然生动的
12、语音合成能力,善于表达多种情绪,演绎多种场景。豆包豆包 语音识别模型:语音识别模型:更高的准确率及灵敏度,更低的语音识别延迟,支持多语种的正确识别。火山方舟:火山方舟:提供模型精调、推理、评测等全方位功能与服务,提供丰富的插件生态和 AI 原生应用开发服务,全方位保障企业级 AI 应用落地。2024 年年 9 月,豆包月,豆包 视频生成模型正式上线。视频生成模型正式上线。2024 年 9 月 24 日,2024 火山引擎 AI 创新巡展在深圳举办,豆包大模型家族迎来新成员:豆包豆包 视频生成模型视频生成模型。豆包 视频生成模型能遵从复杂 prompt,解锁时序性多拍动作指令与多个主体间的交互能
13、力。还可以让视频在主体的大动态与镜头中炫酷切换,拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,灵活控制视角,带来真实世界的体验。此外,豆包视频生成模型成功攻克多镜头切换时一致性的技术挑战,在一个prompt 内实现多个镜头切换,同时保持主体、风格、氛围的一致性。豆包 视频生成模型还支持包括黑白、3D 动画、2D 动画、国画等多种风格,包含1:1、3:4、4:3、16:9、9:16、21:9 六个比例,适配于各种终端,以及电影、手机竖屏等不同画幅。图图4 豆包豆包 视频生成模型视频生成模型支持多种画面比例支持多种画面比例/风格风格 资料来源:火山引擎官微,HTI 在2024年9月的火山引
14、擎AI创新巡展上,豆包豆包 音乐模型、豆包音乐模型、豆包 同声传译模型同期同声传译模型同期面世。面世。豆包 音乐模型能够让用户“实现高品质的音乐创作自由”:(1)歌词更精准,仅需几个字,就能生成情感表达精准的歌词。(2)旋律更多样,提供 10 余种不同的音乐风格和情绪表达。(3)演唱更真实,基于豆包语音能力,媲美真人演唱效果。(4)创作门槛低,支持图片成曲、灵感成曲、写词成曲多种创作方式。豆包 同声传译模型则让跨语言沟通“更无障碍”。(1)实时翻译:超低延时,边说边译,实时翻译沟通无障碍。(2)精准自然:翻译流畅自然、准确率高,在办公、法律、教育等场景接近甚至超越人类同传水平。(3)支持音色克
15、隆:支持跨语言同音色翻译,以更强声音表现力打破沟通壁垒。此外,创新巡展上,豆包大模型团队宣布豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型大幅升级。不断增加的各类模态以及规模化的调用量让豆包大模型“更强模型、更低价格、更易落地更强模型、更低价格、更易落地”的优势持续凸显。的优势持续凸显。其中,主力模型“豆包通用模型pro”最新版本在各维度上国内领先,模型效果持续增强。图图5 2024 年年 9 月月豆包通用模型豆包通用模型 pro 最新版本性能不断升级最新版本性能不断升级 资料来源:火山引擎官微,HTI 2024 年年 12 月,豆包视觉理解模型正式发布,通用模型能力全面对齐月,豆
16、包视觉理解模型正式发布,通用模型能力全面对齐 GPT-4o。2024 年 12 月 18 日,在火山引擎 Force 原动力大会上,豆包大模型家族公布新成员“豆包 视觉理解模型”。它不仅具备强大的视觉感知能力,还能融合视觉与语言输入,进行综合的深度思考和创作。根据图像信息,豆包 视觉理解模型可以完成诸多复杂的逻辑计算任务,包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。通过豆包 视觉理解模型,用户可以同时输入文本和图像相关的问题,模型经综合理解,可给出准确的回答。这将极大地简化开发流程,解锁更多的大模型价值场景。豆包 视觉理解模型提供三大能力:更强的内容识别能力更强的内容识别能力
17、豆包 视觉理解模型有非常强的内容识别能力,不仅可以识别出图像中的物体类别、形状、纹理等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义,甚至背后的文化知识。具体来说,视觉理解模型不仅可以识别现实中的物品,还能根据光影、轮廓、位置等特征,一眼识别出小动物的影子,并“认出”这是一只猫。图图6 豆包豆包 视觉理解模型视觉理解模型内容识别能力优秀内容识别能力优秀 资料来源:豆包大模型团队官微,HTI 更强的理解推理能力更强的理解推理能力 豆包 视觉理解模型也具备出色的理解和推理能力。模型不仅能识别图文信息,还能进行复杂的逻辑计算。拍下一道需要进行微积分运算的数学题,豆包 视觉理解模型能很好
18、地理解图片问题,并根据提示词进行对应的推理计算,给出答题思路。图图7 豆包豆包 视觉理解模型视觉理解模型理解推理能力突出理解推理能力突出 资料来源:豆包大模型团队官微,HTI 更细腻的视觉描述能力更细腻的视觉描述能力 除却识别与理解推理能力,豆包 视觉理解模型还有着非常细腻的视觉描述和创作能力。当用户想设计一款文创产品赠送客户,模型可基于产品的造型或寓意写一段真挚走心的祝福语。本报告来源于三个皮匠报告站(),由用户Id:93117下载,文档Id:187354,下载日期:2025-01-02 图图8 豆包豆包 视觉理解模型视觉理解模型拥有细腻的视觉描述能力拥有细腻的视觉描述能力 资料来源:豆包大
19、模型团队官微,HTI 除发布视觉理解模型之外,2024 年 12 月的火山引擎 Force 原动力大会现场还官宣了豆包语言大模型的升级。相比 2024 年 5 月版本,豆包最强模型 Doubao-pro 能力大幅提升。面向 MMLU_pro评测集,模型综合能力提升 32%,和 GPT-4o 持平,使用价格仅为 GPT-4o 的八分之一。图图9 Doubao-pro 综合能力持平综合能力持平 GPT-4o 资料来源:豆包大模型团队官微,HTI Doubao-pro 指令遵循能力提升 9%,代码能力提升 58%,GPQA 专业知识方面能力提升 54%,数学能力提升 43%,推理能力提升 13%,全
20、面对齐 GPT-4o 水平。图图10 豆包通用模型豆包通用模型 pro 性能性能全面升级全面升级 资料来源:火山引擎官微,HTI 豆包音乐模型和文生图模型也在火山引擎 Force 原动力大会现场发布了升级。豆包 音乐模型,首次发布于 2024 年 9 月,时隔 3 个月后,已能支持 3 分钟的完整音乐作品生成,实现包括前奏、主歌、副歌、间奏、过渡段等复杂结构的作品创作。此外,全新版本模型可合理运用旋律、节奏、和声等信息,使全曲保持在风格、情感等音乐元素上的连贯性。如对生成歌词不满意,还可进行局部修改,给原调赋新词,让音乐创作更自由灵活。文生图模型则新增“一键 P 图,一键海报”技能。基于豆包大
21、模型团队成果SeedEdit,豆包文生图模型2.1版支持通过自然语言对图像进行“一键P图”,包括换装、美化、涂抹、风格转化等任意编辑指令。同时,豆包文生图模型还支持“一键海报”,可实现精准控制的文字图案生成。通过打通 LLM和DiT构架,豆包文生图模型构建了高质量文字渲染能力,可大幅提升文字生成准确率。这种原生的文字渲染能力,让文字与整体画面的融合更为自然和实用。此外,面向 3D 仿真领域,豆包大模型家族还新发布了 3D 生成模型,该模型采用3D-DiT 架构,可生成高质量 3D 模块。该模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作
22、,成为一套支持 AIGC 创作的物理世界仿真模拟器。举例来说,用户只需输入文本,即可实时生成并搭建起一个工厂车间场景。通过快速批量生成并上传至云空间,布局师可实时调用并完成场景设计,提升创作效率和协作体验。图图11 豆包豆包 3D 模型示例模型示例 资料来源:豆包大模型团队官微,HTI 自 2024 年 5 月豆包大模型家族正式发布,到 12 月冬季原动力大会,短短 7 个月时间,豆 包 大 模 型 团 队 发 布 了 Doubao-pro、Seed-TTS、Seed-ASR、Seed-Music、SeedEdit、视频生成模型、视觉理解模型等多项重磅成果,在语言能力、多模态理解与生成、模型推
23、理、代码生成等方面不断提升。图图12 最新的豆包大模型家族最新的豆包大模型家族 资料来源:火山引擎官网,HTI 注:时间截至 2024 年 12 月 21 日 我们上文提到的 FlagEval 模型评测,截至 2024 年 12 月 21 日的最新结果,在大语言模型总榜的“对话模型”榜单,豆包-pro32k 版本已经位列第一。图图13 Doubao-pro 模型模型位列位列 FlagEval 模型评测第一模型评测第一 资料来源:FlagEval 官网,HTI 注:时间截至 2024 年 12 月 21 日 而且,豆包大模型的潜力还不仅仅如此,字节跳动的 AI 团队一直在积极研究各类AI 前沿技
24、术,这也是豆包大模型能力的基石。举例来讲,在语音领域,字节AI团队判断相比于WebSocket,为了提供更流畅自然的用户体验,适应大模型向多模态方向的快速发展,AI 实时语音方案采用实时通信(RTC)技术更为合适。于是团队深耕RTC技术,火山引擎的RTC基于成熟的音频3A处理技术,针对“双讲”通过传统回声消除算法和深度学习算法的结合,不仅有效去除回声,还能避免用户语音被过度处理,确保云端语音识别(ASR)能准确捕捉和识别用户的语音信息。此外,火山引擎 RTC 通过简化算法提高处理速度,避免因算法复杂性带来的额外延时。简单简单来说,这就使来说,这就使得用户与得用户与 AI 的交流能够像和朋友一样
25、自然,随时打断甚至直接插话。的交流能够像和朋友一样自然,随时打断甚至直接插话。图图14 火山引擎对话式火山引擎对话式 AI 实时交互服务方案架构实时交互服务方案架构 资料来源:火山引擎官微,HTI 正是正是通过这一技术,豆包大模型在通过这一技术,豆包大模型在 2024 年年 8 月月宣布宣布支持实时语音通话。支持实时语音通话。又比如,火山引擎就曾经官方表示:“豆包 视频生成模型生成强大画面效果的背后,是字节跳动在视频大模型技术研发的不断投入。”图图15 豆包豆包 视频生成模型运用的相关技术视频生成模型运用的相关技术 资料来源:火山引擎官微,HTI 而而豆包大模型团队豆包大模型团队的的 AI 前
26、沿前沿技术研究从未止步技术研究从未止步,仅仅在,仅仅在 2024 年年 11 月,豆包大模月,豆包大模型团队就发布了多项技术型团队就发布了多项技术进展。进展。2024 年 11 月 1 日,豆包大模型团队豆包大模型团队宣布宣布与香港大学联合提出与香港大学联合提出 HybridFlow(开源项(开源项目名:目名:veRL),一个灵活且高效的),一个灵活且高效的 RL(强化学习)(强化学习)/RLHF(人类反馈强化学习)(人类反馈强化学习)框架。框架。该框架采用混合编程模型,融合单控制器(Single-Controller)的灵活性和多控制器(Multi-Controller)的高效性,可更好实现
27、和执行多种 RL 算法,显著提升训练吞吐量,降低开发和维护复杂度。实验结果表明,HybridFlow 在运行各种 RL(HF)算法时,吞吐量相较 SOTA 基线提升了 1.5-20 倍。图图16 HybridFlow 能有效减少模型参数在两个阶段之间的重分片和通信开销能有效减少模型参数在两个阶段之间的重分片和通信开销 资料来源:豆包大模型团队官微,HTI 2024年 11月 20日,豆包大模型团队包大模型团队宣布宣布提出提出 SuperClass,一个简单且高效的预训,一个简单且高效的预训练方法。练方法。该方法首次舍弃文本编码器,直接使用原始文本的分词作为多分类标签,无需额外的文本过滤或筛选,
28、比 CLIP(可谓 AI 大模型中的“眼睛”。该模型通过将图像与文本对齐,实现了图像与语言之间的理解与关联。近些年来,CLIP 被广泛应用于视觉理解、图像问答、机器人/具身智能等多个领域)具有更高的训练效率。2024年 11月 22日,豆包大模型团队宣布与北京大学联合提出 FAN:Fourier Analysis Networks,一种新型神经网络架构,弥补了,一种新型神经网络架构,弥补了 Transformer 缺陷。缺陷。FAN 通过引入傅里叶原理,将周期性信息显式嵌入到网络结构中,使模型更自然地捕捉和理解数据中的周期性特征,并且可用更少参数量和 FLOPs 无缝替换传统 MLP 层。图图
29、17 MLP Layer 和和 FAN Layer 示例示例 资料来源:豆包大模型团队官微,HTI 实验表明,FAN 不仅在周期性建模上表现显著优于现有模型,而且在符号公式表示、时间序列预测、语言建模、图像识别等实际任务中,同样表现超过了 Transformer等主流模型,尤其在域外测试数据上,表现出色。团队认为,团队认为,FAN 提供了一种全新范提供了一种全新范式,可有效地对周期性建模,无缝替换传统式,可有效地对周期性建模,无缝替换传统 MLP,同时减少参数量和计算量,填补了,同时减少参数量和计算量,填补了当前基础模型在周期性建模方面缺陷,并展示出广泛应用潜力。当前基础模型在周期性建模方面缺
30、陷,并展示出广泛应用潜力。2024年12月12日,字节跳动更是联合北京大学共同成立了北京大学字节跳动更是联合北京大学共同成立了北京大学-字节跳动字节跳动“豆豆包大模型系统软件联合实验室包大模型系统软件联合实验室”,这一实验室将立足北京大学计算机学院在系统软件领域的研究积累,依托字节跳动在大模型应用和系统方面的实践优势,聚焦人工智能大模型系统软件研发。团队多名成员曾在 SIGCOMM、NSDI 等国际顶级会议发表成果,在训练和推理系统方面,有过丰富的大规模生产环境成功部署经验,为团队技术创新奠定了坚实基础。图图18 北京大学北京大学-字节跳动字节跳动“豆包大模型系统软件联合实验室豆包大模型系统软
31、件联合实验室”签约仪式签约仪式 资料来源:豆包大模型团队官微,HTI 正如我们上文所提到的,豆包大模型团队一直在积极研究各类 AI 前沿技术,这也是豆包大模型能力的基石,部分技术虽然还未落地,但是可以预期的前景十分广阔。以 HybridFlow 为例,从 ChatGPT 到 o1 等各种大语言模型,强化学习(RL)算法在提升模型性能和适应性方面起着至关重要的作用。在大模型后训练(Post-Training)阶段引入 RL 方法,已成为提升模型质量和对齐人类偏好的重要手段。我们认为,我们认为,HybridFlow作为一个灵活且高效的作为一个灵活且高效的RL/RLHF框架,在可以预期的未来,能够为
32、字节的模框架,在可以预期的未来,能够为字节的模型训练带来重要助力。型训练带来重要助力。我们认为,在我们认为,在短短短短 6 个月的时间里,豆包个月的时间里,豆包大模型不断升级迭代,性能持续提升,大模型不断升级迭代,性能持续提升,已经成为字节已经成为字节 AI 发展的重要基石,豆包大模型发展的重要基石,豆包大模型从从 FlagEval 模型评测的模型评测的“第二第二”迈向迈向“第第一一”,这这背后代表背后代表的是字节孜孜不倦的技术投入的是字节孜孜不倦的技术投入,这些投入不仅推动了模型能力的持续这些投入不仅推动了模型能力的持续扩展,也扩展,也有效地拓展了豆包大模型的应用边界,客观上加速推动了有效地
33、拓展了豆包大模型的应用边界,客观上加速推动了 AI 大模型应用的普大模型应用的普及与落地,此外,豆包大模型团队对及与落地,此外,豆包大模型团队对 AI 前沿技术的积极研究,更加奠定了未来豆包大前沿技术的积极研究,更加奠定了未来豆包大模型长期发展的基础,未来豆包大模型的领先优势有望持续扩大模型长期发展的基础,未来豆包大模型的领先优势有望持续扩大,“更强模型更强模型”也有望也有望不断实现不断实现。2.“更低价格更低价格”与与“更易落地更易落地”,让豆包大模型落地千行百业,让豆包大模型落地千行百业 上文我们提到了字节对于 AI 发展的目标:更强模型:更强模型:大使用量才能打磨出更好模型。豆包大模型目
34、前已经在字节跳动内部50 多个业务、多场景应用中落地,经过千亿级日 tokens 的持续打磨,模型能力和推理效果得到市场的广泛认可。更低价格:更低价格:为了让每一家企业都能用得起大模型,火山引擎大幅度降低大模型应用推理成本。例如本次登榜的豆包通用模型 pro,其 32k 版模型推理输入价格仅为0.0008 元/千 tokens。更易落地:更易落地:火山引擎 2023 年发布了一站式大模型服务平台火山方舟,通过模型即服务的理念,帮助企业在高效、安全的环境里应用各类模型。2024 年 5 月,火山引擎对方舟平台进行了全面升级,升级后的火山方舟 2.0 将大幅提升模型效果、核心插件、系统性能以及平台
35、体验,帮助企业推进大模型的价值创造。其中,更低价格和更易落地,都是为了其中,更低价格和更易落地,都是为了 AI 应用的应用的落地落地和和发展。发展。2024 年 5 月,豆包大模型刚发布的时候,豆包主力模型在企业市场的定价只有0.0008 元/千 tokens,0.8 厘就能处理 1500 多个汉字,比行业便宜 99.3%。以豆包通用模型 pro-32k 版为例,模型推理输入价格仅为 0.0008 元/千 tokens。而市面上同规格模型的定价一般为 0.12 元/千 tokens,是豆包模型价格的 150 倍。大模型价格,进入“厘时代”。图图19 豆包大模型维持豆包大模型维持“极低极低”价格
36、水平价格水平 资料来源:火山引擎官网,HTI 此后,豆包大模型家族维持了“极低”的定价体系,例如新发布的豆包 视觉理解的输入价格为每千 tokens 0.003 元,比行业平均价格降低 85%,相当于一块钱可以处理284 张 720P 的图片,视觉理解模型也正式走进厘时代。图图20 豆包豆包 视觉理解模型定价显著低于行业水平视觉理解模型定价显著低于行业水平 资料来源:火山引擎官微,HTI 我们认为,我们认为,“极低极低”的的定价定价能够助力企业以更低成本加速业务创新,让企业在同等能够助力企业以更低成本加速业务创新,让企业在同等甚至稍差的技术水平下更愿意去使用豆包模型,这也带动了豆包各类应用的广
37、泛落甚至稍差的技术水平下更愿意去使用豆包模型,这也带动了豆包各类应用的广泛落地。地。此外,豆包还积极开发各类开发者工具,助力 AI 应用的落地。2023 年,火山引擎发布了一站式大模型服务平台火山方舟,希望通过模型即服务的理念,帮助企业在高效、安全的环境里应用各类模型。2024 年 5 月,豆包大模型首次发布时,火山引擎对方舟平台进行了全面升级,升级后的火山方舟 2.0 将大幅提升模型效果、核心插件、系统性能以及平台体验,帮助企业推进大模型的价值创造。在插件和工具链上,方舟 2.0 升级了联网插件,提供头条抖音同款搜索能力,实时连接海量优质数据,同时使用文本、图像、语音等多模态交互方式,并通过
38、业内领先的意图识别能力,大幅提升模型的信息获取能力;升级内容插件,提供头条抖音同源海量内容,支持多模态交互,提供基于意图的垂类内容信息检索,内容时效检索更强,帮助大模型深入理解、检索和生成内容;升级知识库插件,提供毫秒级百亿规模的高性能检索,秒级流式知识库索引更新,内嵌豆包向量化模型,提高搜索的相关性和准确性。图图21 方舟方舟 2.0 拥有优质插件库拥有优质插件库 资料来源:火山引擎官微,HTI 除以上核心插件升级之外,火山方舟 2.0 也全面升级了系统承载能力、安全防护能力和算法服务能力。在系统承载力上,提供充沛的 GPU 算力资源,分钟级千卡扩缩容的超强弹性,保障业务稳定和成本可控;在安
39、全防护上,通过安全沙箱构建可信的执行环境,多维度的安全架构,保障数据安全;此外,火山引擎提供专业的算法团队服务,帮助客户释放独有数据价值,让企业大模型应用轻松落地。此外,火山引擎还正式发布了扣子专业版。扣子(Coze)作为字节跳动推出的新一代 AI 应用开发平台,具备低门槛、个性化、实时性、多模态等优势,并集合海量的 AI资源、丰富的发布渠道、一键自定义 API服务,帮助填补大模型到用户场景的最后一公里。火山引擎正式发布了扣子专业版。扣子专业版在扣子可视化灵活编排智能体的能力基础上,进一步提供企业级 SLA 和多种高级特性,使 AI 应用更易落地,让企业更专注于通过智能体创新,驱动业务增长。2
40、024 年 7 月,火山方舟进一步升级了核心插件和智能体能力,以及全周期数据安全可信方案,其中,头条抖音同款三大插件联网插件、内容插件和 RAG 知识库插件能力再次升级,还新增了网页解析插件和计算器插件,进一步扩宽模型能力的边界,支持企业多样的应用需求。智能体是大模型落地有效路径。为帮助企业“低门槛”开发智能体,火山引擎提供扣子专业版,支持低代码构建契合企业业务场景的专家型“AIBot”,并通过专业级 SLA 和多种高级特性保障 AI 应用在企业中高效落地。火山引擎还打造了HiAgent企业专属AI应用创新平台,帮助企业打通拥抱大模型的最后一公里。HiAgent 能够从速度、密度、厚度三个维度
41、全方位赋能企业 AI 应用的快速落地与持续优化:速度:HiAgent 将模型应用开发方式从代码进化到自然语言,业务人员可以利用提示词、知识库、插件等工具,像搭积木一样低代码搭建智能体,提升应用创新的“速度”。密度:增强的企业级知识库 RAG,让知识沉淀萃取成智慧,在企业流程中体现知识的“密度”。厚度:HiAgent 丰富的专属企业级特性,允许企业自定义新 AI 中台,并支持混合部署,积累 AI 资产,让 AI 能力有“厚度”。此外,火山引擎 AI 全栈云依托字节跳动的海量资源共池,支持多芯、多云架构,拥有超大规模算力,支持万卡集群组网、万亿参数 MoE 大模型;提供超高性能网络,支持 3.2T
42、bps RDMA 网络,全球网络 POP 覆盖广,时延优化最高达 75%;提供优质的存储性能,文件存储 vePFS 支持 2TB/s 吞吐并行存储、3000 万 IOPS;提供毫秒级性能监控,智能 GPU 自愈能力,保障计算资源的稳定运行;提供灵活的资源使用和计费方式,自研 mGPU 容器共享方案,GPU 利用率提升 100%+,为生成式 AI 工作负载提供更高性价比的算力资源;强大的弹性调度能力,支持分钟级创建千台实例;提供一站式资源服务和全链路数据管理能力,助力企业高效、弹性构建 AI 训练或推理业务,加速企业实现 AI 应用落地。2024 年 12 月,火山方舟、扣子平台以及 HiAge
43、nt 等平台进一步升级,加速了大模型落地,为企业和开发者提供高效的工具。火山方舟作为一站式大模型服务平台,火山方舟凭借 Cache、离线推理模式等产品与升级,以及全新发布的 Prompt 优解,加速大模型能力落地。大模型落地过程中,prompt(提示词)的编写,往往是横在面前的第一道门槛,大模型能力越强,对指示词、指令的遵循程度也就越高。火山引擎发布 Prompt优解,可以通过“自动+互动”方式协助用户编写提示词,让用户在互动中表达需求,快速上手。用机器实现类似人类的反思、类比、错误总结能力,全自动优化 prompt,助力企业低成本高效率获得高质量 prompt。图图22 Prompt 优解功
44、能介绍优解功能介绍 资料来源:火山引擎官微,HTI 在价格方面,火山引擎始终把更低、更好的成本和价格放在首位。为进一步践行“人人用得起,才是好模型”理念,火山引擎发布离线批量推理方案和上下文缓存,帮助用户实现更为精细化和低成本的运营。以上下文缓存为例,针对有大量聊天、客服对话的连续型客户需求场景,火山引擎推出 context 上下文缓存记忆方案,无需重复对话就可以保持上下文,可将多轮对话延迟减少 50%,极大改善客户体验。同时在命中上下文缓存部分,降低企业使用成本80%。全新扣子 1.5 和 HiAgent 1.5 也在 2024 年 12 月发布。扣子扣子 1.5:(1)开发者生态逐渐完善,
45、超过 100 万活跃开发者,发布超过 200 万个智能体。(2)全新的 AI 应用开发环境,支持 GUI 搭建界面,并且可以一键发布为小程序、H5、API 等多种应用形态。(3)更强的多模态能力,提供音视频对话能力,端到端延迟响应低至 1 秒低成本SDK 快速接入各类硬件。(4)海量的精品模板,涵盖多业务场景,一键复制使用。HiAgent 1.5:(1)更懂 AI 转型:提供观测&评测体系,保障效果生产可用;提供 100+行业应用模板,企业可开箱即用;提供配套 AI 咨询,帮助企业找到 AI 落地路径。(2)更深业务适配:提供丰富的企业级插件、灵活的应用集成机制;GraphRAG 构建知识图谱
46、,提供细粒度的知识资产管理;生成式画布融合 CUI 和 GUI,打造智能交互引擎。(3)更强安全保障:支持 RAG 知识库和大模型全栈私有化部署。此外,豆包大模型最新发布的豆包 视觉理解模型、豆包 文生图模型 2.1 和豆包 音乐模型,都可以在扣子通过插件的方式体验,将有助于更多多模态 AI 应用在扣子诞生。图图23 火山引擎提供的火山引擎提供的 AI 落地方案落地方案 资料来源:火山引擎官微,HTI 可以看出,除了认真打磨技术,让模型更强以外,字节一直努力在践行着“更低价更低价格格”和和“更易落地更易落地”,这也使得字节的大模型,真正的在各行各业遍地开花。早在2024年5月豆包大模型刚发布时
47、,豆包大模型和火山方舟2.0就已经在金融、汽车、智能终端、电商零售、教育科研等多个行业实践落地。招商银行、海底捞火锅、超级猩猩、携程旅游、飞常准、猎聘等企业也已经在扣子上搭建了智能体。复旦大学、浙江大学等名校也为课程和实验搭建了“AI 助教”。以招商银行为例,作为金融行业 AI 转型的践行者,招商银行正在智能外呼、数字人、智能数据助理等上百个 AI 服务场景探索和投入。招商银行数字金融发展办公室主任高旭磊就表示,大模型将为银行全链条业务带来改造和升级。携手火山引擎,双方将共建大模型应用场景及高性能基础设施,改造现有系统和产品,催生大量以 AI 为核心的智能体应用。蒙牛集团也与火山引擎合作夯实技
48、术底座,并构建了 AI 营养专家、AI 育婴师、AI数据分析师、产品创新助手、热点创意助手等智能体矩阵,提升前端消费者体验,助力后端运营人员决策。2024 年 7 月,豆包大模型日均 tokens 使用量超过 5000 亿,自 2024 年 5 月 15 日豆包大模型发布的 2 个月内,平均每家企业客户日均 tokens 使用量增长了 22 倍。现如今,不少前沿技术已应用于豆包 APP、即梦等 C 端产品,并通过火山引擎服务众多行业的企业客户。2024 年 12 月豆包大模型日均 tokens 调用量突破 4 万亿,7 个月增长幅度达 33 倍。尤其在汽车、手机、智能终端等新兴行业,豆包大模型
49、调用量增长了 50 倍以上。图图24 豆包大模型日均豆包大模型日均 tokens 7 个月时间增速达个月时间增速达 33 倍倍 资料来源:火山引擎官微,HTI 此外,字节还高度重视生态建设,早在豆包大模型正式发布的 2024 年 5 月的 2024春季火山引擎 FORCE 原动力大会上,火山引擎还与 OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。OPPO 小布助手、荣耀 MagicBook 的 YOYO 助理、小米“小爱同学”、华硕笔记本电脑的豆叮 AI 助手等应用,均已接入火山引擎的大模型服务。此外,字节还组织了火山引擎汽车行业大模型生态联盟。2024 年 5 月的时
50、候,联盟已聚合中国电动车百人会、广汽集团、北汽集团、一汽奔腾、上汽大通、长城汽车、捷途汽车、智己汽车、哪吒汽车、吉祥汽车、东软睿驰、美行科技、大搜车等众多汽车产业上下游企业,共同打造汽车大模型生态。当时字节的宣传语就是:当时字节的宣传语就是:“大模型大模型定价低于行业价格定价低于行业价格 99%,火山引擎助力车企加速驶入,火山引擎助力车企加速驶入AI 时代时代”。图图25 火山引擎汽车大模型生态联盟首批联盟成员火山引擎汽车大模型生态联盟首批联盟成员 资料来源:火山引擎官微,HTI 汽车大模型生态联盟也在不断扩容,在 2024 年 8 月又迎来了领克汽车、吉利银河、几何汽车、上汽荣威、上汽名爵、
51、雄狮科技、大圣科技等多位新成员。而在这基础上,豆包大模型在汽车行业的拓展一骑绝尘,正如上文介绍的,豆包大模型豆包大模型 2024 年年5 月发布到月发布到 2024 年年 12 月,在汽车行业的调用量增长了月,在汽车行业的调用量增长了 50 倍以上,远超平均值。倍以上,远超平均值。2024 年 8 月,火山引擎还携手多点 DMALL 成立零售大模型生态联盟,通过融合豆包大模型与 AI 能力,让零售企业能够以极低的试错成本将大模型技术应用到业务场景中,推动零售行业的智能化升级,提升行业的整体效能和创新能力,以适应不断变化的市场需求和消费者行为,加速零售行业的创新步伐。零售联盟首批成员就包括物美集
52、团、抖音电商、抖音生活服务、百胜、麦当劳、中国飞鹤、海底捞、居然之家、南7-11、重庆百货、百果园、波司登、天虹、三得利、绝味、名创优品、NielsenIQ、电通等 18 家。我们认为,对生态的重视,也使得豆包大模型能够更便利的进入不同的行业,并在我们认为,对生态的重视,也使得豆包大模型能够更便利的进入不同的行业,并在各企业端落地。各企业端落地。而且,值得注意的是,tokens 调用规模化增长的同时,豆包大模型在不同场景中都在快速增长、全面开花。我们认为,这说明不同领域企业对于豆包模型不同需求场景下的使用正在不断深化。图图26 豆包大模型在豆包大模型在 10-12 月各应用场景调用量增长月各应
53、用场景调用量增长 资料来源:火山引擎官微,HTI 我们认为,我们认为,“极低极低”的定价能够助力企业以更低成本加速业务创新,让企业在同等的定价能够助力企业以更低成本加速业务创新,让企业在同等的技术水平下更愿意去使用豆包模型,这也带动了豆包各类应用的广泛落地的技术水平下更愿意去使用豆包模型,这也带动了豆包各类应用的广泛落地,而不断,而不断增加的增加的 tokens 调用量,叠加越来越多的场景覆盖吗,使得豆包大模型能力越来越全调用量,叠加越来越多的场景覆盖吗,使得豆包大模型能力越来越全面,这就进一步推动豆包大模型变得面,这就进一步推动豆包大模型变得“更强更强”,使得,使得“更强模型更强模型”这一目
54、标能够进一步实这一目标能够进一步实现,从而带动了多个良性循环:现,从而带动了多个良性循环:模型能力层面:低价模型能力层面:低价+易落地易落地+好模型,使得豆包大模型用户数持续提升,用户越好模型,使得豆包大模型用户数持续提升,用户越多多,tokens 调用量越大,场景覆盖越多,从而使得豆包模型能力越来越全面,模型越调用量越大,场景覆盖越多,从而使得豆包模型能力越来越全面,模型越强,用户模型使用意愿越强,强,用户模型使用意愿越强,最终推动最终推动模型能力持续迭代。模型能力持续迭代。而且而且 tokens 调用量越大,字节算力规模越大,算力单位成本越低,模型价格调用量越大,字节算力规模越大,算力单位
55、成本越低,模型价格就能就能进一步下降进一步下降,从而使得用户模型使用意愿进一步增强,从而使得,从而使得用户模型使用意愿进一步增强,从而使得 tokens 调用量进一步调用量进一步提升提升,使得算力单位成本进一步下降,最终推动模型价格持续下降使得算力单位成本进一步下降,最终推动模型价格持续下降。展望未来,字节展望未来,字节 AI 的目标:的目标:“更强模型更强模型”、“更低价格更低价格”、“更易落地更易落地”正在推动字节正在推动字节AI 更加高速的落地千行百业,更加高速的落地千行百业,AI 应用爆发的前夜也正离我们越来越近应用爆发的前夜也正离我们越来越近。3.不止豆包,字不止豆包,字节节 AI
56、商业商业布局行以致远布局行以致远 2023 年 8 月豆包 APP(由于豆包 AI 应用/豆包 AI 大模型名称相同,下文如仅用“豆包”二字,则专指豆包 AI 应用,“豆包 xx 模型/大模型”则指代各类豆包 AI 大模型)正式上线。图图27 豆包豆包 APP 版示例版示例 资料来源:豆包官微,HTI 伴随时间的推移,豆包 APP 的应用功能也不断深化。2024 年 7 月 16 日,豆包浏览器插件推出播客总结功能,并不断优化视频总结功能,不仅可以总结视频内容,还能增加多级目录和思维导图,方便用户观看和消化超长视频。2024 年 7 月 17 日,三星电子面向中国市场发布新一代 Galaxy
57、Z 系列产品。会上,三星电子与火山引擎官宣合作,为 Galaxy Z Fold6、Galaxy Z Flip6 手机的 Bixby 语音助手和 AI 视觉接入豆包大模型,提升手机的智能应用体验。2024年8月8日,豆包音乐生成功能上线。用户在豆包“音乐生成”中输入主题或歌词,设定音乐风格、情绪及音色,便能快速生成一首约 1 分钟的词曲。2024年9月6日,豆包旗下教育品牌“豆包爱学”完成升级,应用推出作业批改、拍照答疑、作文创作等多项实用功能,以适配家庭教育各类场景。此外,豆包爱学还提供知识问答、AI 搜知识、与历史名人对话、故事创作等功能,旨在提升用户综合素养。2024 年 10 月,豆包
58、App 和电脑版完成多项功能更新。豆包 App 支持上传附件支持多种音频文件格式,用户可快速总结会议录音、课程记录等内容。豆包电脑版上线 语音通话功能,支持回复实时信息。2024 年 11 月 11 日,豆包电脑版上线了一项新功能,让用户不懂 P 图也能实现轻松修图。在豆包电脑版,用户选择“图片生成”,生成图片后,选择“继续编辑”,输入一句简单的指令,就能实现一键 P 图。此外,用户也可以通过“参考图”入口上传图片进行二次加工。2024 年 12 月 5 日,豆包正式支持一键生成带有指定文字的图片。图图28 豆包支持一键生成带有指定文字的图片豆包支持一键生成带有指定文字的图片 资料来源:豆包官
59、微,HTI 2024 年 12 月 10 日,豆包电脑版视频生成功能开启内测使用,用户内测申请通过后,在豆包电脑版选择“视频生成”,上传一张图片输入提示词,并添加运镜、分镜信息,即可生成一段视频。不难发现,伴随豆包大模型的不断升级迭代,豆包的功能也在不断更新。举例来说,2024 年 8 月 9 日,火山引擎宣布豆包大模型支持实时语音通话功能。该功能通过实时通信(RTC)技术,提高了语音数据的传输效率和流畅度,适用于 AI 社交陪伴、口语学习、游戏NPC及呼叫中心等场景。而在2024年10月,豆包电脑版就上线语音通话功能。又比如,2024 年 9月 24日,在火山引擎 AI 创新巡展深圳站活动上
60、,豆包视频生成模型PixelDance与Seaweed正式发布,支持多镜头一致性切换及多拍动作与主体复杂交互。在 2024 年 12 月 10 日,豆包电脑版视频生成功能就开启了内测使用。图图29 豆包豆包电脑电脑网页版示例网页版示例 资料来源:豆包官网,HTI 在豆包上线后很长一段时间内,字节官方并没有进行大量公开宣传,豆包的官微都是在 2024 年 6 月才发布了第一篇官方文章,但是豆包的流量却快速提升。2024 年 5 月,豆包大模型正式发布的时候,基于豆包 APP 在苹果 APP Store 和各大安卓应用市场的表现,豆包豆包 APP 的下载量在的下载量在 AIGC 类应用中已经排名第
61、一。类应用中已经排名第一。2024 年 11 月,根据 AI 产品榜 应用榜(APP),豆包豆包 11 月上榜应用月上榜应用 APP MAU 高达高达5998 万,对比第二名文小言万,对比第二名文小言 1299 万的数据在国内处于断崖领先的位置。万的数据在国内处于断崖领先的位置。在全球范围内,豆包的豆包的 11 月上榜应用月上榜应用 APP MAU 也能排到第二的位置,仅次于也能排到第二的位置,仅次于 ChatGPT。图图30 豆包豆包排名排名 2024 年年 11 月月 AI 产品榜产品榜 国内总榜第一国内总榜第一 资料来源:AI 产品榜官网,HTI 那么究竟是什么带给了豆包如此强大的流量?
62、我们认为,我们认为,从表面来看,从表面来看,豆包豆包首先首先是一个是一个“好用好用”的的 AI 助手,助手,能满足能满足用户在用户在多种使多种使用场景下的不同需求用场景下的不同需求。作为一款通用型 AI 产品,豆包致力于去满足不同用户具体且真实的需求,让用户像开口问身边的朋友一样快捷方便地和豆包沟通,真正做到什么都问问豆包。日常生活里各种知识和经验问答,豆包总能快速为用户答疑解惑。例如最近上海到了银杏季节,用户问豆包“上海哪里可以看银杏?”,豆包很快就列出了市中心和郊区的观赏地及特点,并配上了银杏树的照片和路线视频攻略,非常方便。图图31 豆包豆包能满足日常生活中的能满足日常生活中的多重多重需
63、求需求 资料来源:豆包官微,HTI 在教育学习领域,豆包也能很快很好的满足学习和教育的各种需求。比如解答奥数题,豆包可以给用户进行解答。豆包能提供详尽的解题步骤,引导用户理解题目解法。如果用户对某类题目掌握的不太牢固,豆包还可以继续给用户出几道同类知识点题目巩固练习。英语口语练习也是重要的教育场景。根据用户反馈,豆包的发音、词汇量、句型都远远超过普通用户水平。通过豆包实时语音通话功能,用户可以实现和豆包一来一回练英语,毫不尴尬,也节约了请老师辅导的开销。此外,生成的英语对话还配有字幕,用户退出后还可以复习。图图32 豆包能满足豆包能满足教育领域教育领域中的中的多重多重需求需求 资料来源:豆包官
64、微,HTI 在工作场景中,豆包也能满足众多使用场景。以论文这一“问问豆包”的高频场景为例,用户不仅可以让豆包总结,划词解释专业名词,还可以多追问,不论是图片还是实验数据,都可以截图问问豆包,它都能给出清晰的图表解释和实验含义。此外,文字、图片、音乐、视频的创作上,用户也都会问问豆包。我们认为,豆包的我们认为,豆包的“好用好用”只是其广受欢迎的最表面,在深层,豆包团队做出了大只是其广受欢迎的最表面,在深层,豆包团队做出了大量的努力。量的努力。首先,豆包团队努力让豆包首先,豆包团队努力让豆包“接地气接地气”、“拟人化拟人化”。在豆包团队看来,“拟人化”是大模型产品的新特性。AI 除了带来了新的能力
65、,也带来了新的交互方式,用和人类对齐的交互体验,降低使用门槛,也让用户在使用产品时感觉到产品有类似人的温度。为了体现这种拟人的感受,豆包团队希望产品的名字,就像用户对一个亲密朋友日常称呼的昵称。在简单、好读、好记的通用原则下。最终,团队在有点随意,甚至字节跳动产品与战略副总裁朱骏都曾表示:“(选中豆包后团队认为)反正以后如果有更好的名字也还可以改嘛”的情况下,选择了“豆包”这一亲切又有点可爱的名字。豆包上线后,名字的起源引起了众多用户的猜测和讨论,凑巧的吸引了普通用户的关注,而且是用户主动帮豆包想出了两个有趣的解释:(1)豆包=抖音的官方 bot,“抖 bot”谐音就是豆包;(2)说豆包=“都
66、包了”,工作生活学习的需求都包了,寓意是通用助手的产品愿景。这两个解释最终也都得到了豆包官方团队的认可。我们认为,豆包的我们认为,豆包的“接地气接地气”和和“拟人化拟人化”使得其发布最初,就得到了一波使得其发布最初,就得到了一波“自来水自来水”,同时,也让其更易于被普通用户所接受。同时,也让其更易于被普通用户所接受。图图33 豆包的拟人化形象:可爱女生豆包的拟人化形象:可爱女生 资料来源:豆包官微,HTI 此外此外,豆包团队,豆包团队不断不断通过各种手段让豆包更易用、更通过各种手段让豆包更易用、更“快快”。(1)豆包输入更方便,所以更豆包输入更方便,所以更“快快”在产品设计上,豆包团队一直努力
67、让用户的输入更快更方便。豆包团队非常注重多模态的输入和打磨,尤其是语音输入。输入速度上来说,普通人的打字速度大概是每分钟 60 到 80 个字,而普通人的语速每分钟可以到 250 至 300 字。所以一般情况下,语音输入效率至少是键盘输入的3倍以上。语音的效率天然更高,更快。同时,豆包的语音能准确转录各种语音信号,识别不同语言、方言、口音。豆包对于人名、生词,也能结合上下文做出准确分析。图图34 豆包输入更方便,所以更豆包输入更方便,所以更“快快”资料来源:豆包官微,HTI 语音以外,豆包也上线了视觉识别模型。无论是读心电图、还是拍奥数题,都依靠视觉输入。人和世界的沟通中,视觉是很重要的一环。
68、相比用语言描述心电图上的复杂信息,直接拍下来问问豆包,会更快更方便。(2)豆包离用户更近,所以更豆包离用户更近,所以更“快快”2024 年 10 月,豆包团队发布了 Ola Friend 智能体耳机,其宣传语即为:“让豆包,成为随时随地陪伴在你耳边的朋友”。Ola Friend 耳机与豆包 APP 深度结合。在官网和官方宣传片中,豆包强调了 Ola Friend 能够在信息查询、旅游出行、英语学习及情感交流等场景为用户提供帮助。图图35 Ola Friend 耳机与豆包耳机与豆包 App 资料来源:Ola Friend 官网,HTI Ola Friend 耳机这样轻便的可穿戴设备,让豆包能够成
69、为用户耳边伴随的朋友,在路上随时和豆包对话,最快。运动,逛街,旅行时,用户无需再拿出手机或其他设备,直接通过耳机就能和豆包对话,快速获取信息。这种无缝连接的交互方式,让豆包真正成为了用户身边的智能伙伴,陪伴用户度过每一个需要知识和帮助的时刻。此外,豆包团队在 2024 年还重点建设了豆包电脑版。用户可以把电脑版当成浏览器,直接打开网页。在浏览中遇到需要提问、翻译或总结时,直接点击“问问豆包”,就能轻松唤起,获得帮助。豆包还即将上线“文档编辑器”功能,采取全新的交互方式,生成文档后,用户可以在画布中自由编辑,让 AI 针对特定词语和段落优化改写,也可以一键全文润色、调整长度,全网搜图等,让创作更
70、轻松。图图36 豆包离用户更近,所以更豆包离用户更近,所以更“快快”资料来源:豆包官微,HTI (3)豆包模型能力更强,所以更豆包模型能力更强,所以更“快快”豆包的快,究其根本,是背后的豆包大模型帮助用户做了意图识别、信息收集、处理、整合和分析。图图37 豆包模型能力更强,所以更豆包模型能力更强,所以更“快快”资料来源:豆包官微,HTI 当用户提出较为复杂的搜索或写作需求时,豆包快速识别用户意图,推理并拆解内容,再进行多步骤分析和推理,并调度搜索,呈现总结后的结果。同时,豆包还能将搜索到的文本信息与视频内容相结合,为用户提供更加丰富和直观的体验。此外此外,字节还投入了大量资源为豆包引流。字节还
71、投入了大量资源为豆包引流。根据第一财经杂志官方百家号援引广告情报分析平台 AppGrowing 统计,豆包智能助手 2024 年 4 月、5 月的投放金额接近1800 万元,等到 2024 年 6 月上旬,投放金额飙升至 1.24 亿元。2024 年年 6月开启大规模月开启大规模买量投流后,豆包月活跃用户(买量投流后,豆包月活跃用户(MAU)迅速超过竞争对手)迅速超过竞争对手。与此同时,字节还限制了豆。与此同时,字节还限制了豆包的竞对产品在抖音平台的包的竞对产品在抖音平台的广告投放。广告投放。图图38 2024 年年 6 月豆包月豆包 MAU 迅速超过竞争对手迅速超过竞争对手 资料来源:第一财
72、经杂志官方百家号,HTI 我们认为,我们认为,总结来讲,豆包的功能发展全面,并且多端覆盖,使用门槛又低,日总结来讲,豆包的功能发展全面,并且多端覆盖,使用门槛又低,日常场景够用,再叠加字节强大的常场景够用,再叠加字节强大的广告投放和广告投放和流量流量效应,豆包的关注度持续提升也就是效应,豆包的关注度持续提升也就是情理之中的事情了。情理之中的事情了。而豆包而豆包也也远远不是字节不是字节在在 AI 应用唯一的布局。应用唯一的布局。根据第一财经杂志官方百家号,字节字节目前还在正常运营的目前还在正常运营的 AI应用大约应用大约 20款,其中款,其中绝大部分是在绝大部分是在 2024 年以后发布的。年以
73、后发布的。图图39 字节跳动旗下字节跳动旗下 AI 应用应用/硬件硬件 研发团队研发团队类型类型产品产品智能助手豆包CiCi(海外)工具集小悟空ChitChop(已停止运营)社交猫箱AnyDoor(海外)图像星绘PicPic(海外)教育豆包爱学Gauth(海外)图片/视频生成即梦AIDreamina(海外)视频剪辑剪映Capcut(海外)抖音TikTok数字人抖音AI分身(KOL内测)TikTok Al网红巨量引擎抖音电商内容生成即创智能体开发平台扣子Coze(海外)编程助手豆包MarsCodeMarsCode(海外)模型分享社区炉米Lumi其他音乐生成海绵音乐Oladance+Flow智能体
74、耳机Ola Friend大力教育智能台灯大力智能学习灯火山引擎智能玩偶显眼包Flow剪映硬件硬件应用应用字节跳动开发者服务团队 资料来源:第一财经杂志官方百家号,HTI 字节的字节的 AI 应用不仅在数量上突出,在市场认可度上也拥有领先地位。应用不仅在数量上突出,在市场认可度上也拥有领先地位。硅谷知名投资机构 a16z,其每 6 个月会深入挖掘数据,分别评选出 50 款领先的生成式 AI Web 应用和 50 款领先的生成式 AI 移动应用,豆包在豆包在 2024 年年 8 月份的最新榜单月份的最新榜单中同时出现在了中同时出现在了 AI Web 应用和应用和 AI移动应用两个榜单中。移动应用两
75、个榜单中。此外,字节跳动此外,字节跳动旗下旗下还有还有 4个个应用上榜。应用上榜。在生成式 AI Web 应用榜单,除豆包外,AI 智能体开发平台 Coze(海外版的“扣子”)、教育类 AI 应用 Gauth 上榜。图图40 a16z Top 50 生成式生成式 AI Web 应用榜单应用榜单 资料来源:a16z 官网,HTI 在生成式 AI App 应用榜单,除豆包外,豆包海外版 Cici、图片编辑类的 AI 应用Hypic 上榜。图图41 a16z Top 50 生成式生成式 AI 移动应用榜单移动应用榜单 资料来源:a16z 官网,HTI 根据新浪财经,根据新浪财经,NeurIPS 20
76、24 大会上,前大会上,前 OpenAI 联合创始人、联合创始人、SSI 创始人创始人 Ilya Sutskever 发表演讲时表示,预训练作为发表演讲时表示,预训练作为 AI 模型开发的第一阶段即将结束。模型开发的第一阶段即将结束。在此,我们在此,我们不评价不评价 Ilya 言论正确与否,言论正确与否,我们认为,我们认为,从海内外从海内外 AI 大模型发展速度来看,大模型发展速度来看,客观上,客观上,AI技术逐渐从陡峭进入到平缓区间技术逐渐从陡峭进入到平缓区间,AI 商业化落地已经成为事实上商业化落地已经成为事实上 AI 发展的下一阶段。发展的下一阶段。我们认为,我们认为,过去几个月来,字节
77、通过成熟的产品技术,亲民的产品定位,庞大的过去几个月来,字节通过成熟的产品技术,亲民的产品定位,庞大的流量投入打造了豆包这一目前国内用户量最大的流量投入打造了豆包这一目前国内用户量最大的 AI 应用,这使得字节已经走出了一条应用,这使得字节已经走出了一条AI 应用发展的成功道路,获得了领先于其他竞争对手的独特的应用发展的成功道路,获得了领先于其他竞争对手的独特的 AI 应用落地经验。应用落地经验。考虑到字节强大的资本体量和对考虑到字节强大的资本体量和对 AI 商业化商业化的高度重视,字节目前的高度重视,字节目前 20 余款余款 AI 应用应用也许只是个开始,字节已经成为了事实上的中国也许只是个开始,字节已经成为了事实上的中国 AI 商业化旗手,正在商业化旗手,正在 AI 发展的道路上发展的道路上行以致远。行以致远。