报告预览

计算机行业深度研究：文心一言、GPT3.5及GPT~4的应用测评对比-230319（32页）.pdf

编号：119127

PDF DOCX 32页 6.14MB 下载积分：VIP专享

下载报告请您先登录！

计算机行业深度研究：文心一言、GPT3.5及GPT~4的应用测评对比-230319（32页）.pdf

1、敬请参阅最后一页特别声明 1 OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API；国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异，我们对文心一言、GPT-3.5（ChatGPT 的原模型）和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。在常识和创作类问题中，三大模型均能正确回答客观常识类问题；进行文学创作结果均能体现正面价值观，但

2、文心一言的分词功能有待提升；目前 GPT-4 尚未开放图像生成外部测试，文心一言的图像生成能力较为出色。在归纳和推理类问题中，文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型，但在归纳总结类任务中表现较好；三大模型在情感推理类问题中仍有提升空间。在数学和代码类问题中，GPT-3.5 有更好的数学能力表现；GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题，但并非最优解，文心一言代码问题识别能力有待加强。在应用场景测试中，三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务，但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及

3、OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升，各模型性能都有望实现进一步优化完善。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现，其中，文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4，但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏，有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司，如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限；应用落地不及预

4、期；行业竞争加剧风险；测评问题有限导致结果或有偏差。行业深度研究敬请参阅最后一页特别声明 2 内容目录内容目录 1.常识和创作.3 2.归纳和推理.7 3.数学和代码.12 4.现实应用场景测试.17 5.投资建议.30 6.风险提示.30 图表目录图表目录图表 1：三大模型测评结果综合对比.3 图表 2：常识类问题的回答对比.4 图表 3：文字创作问题的回答对比.4 图表 4：图像创作问题的回答对比.6 图表 5：演绎推理问题的回答对比.7 图表 6：情感推理问题的回答对比.8 图表 7：逻辑推理问题的回答对比.9 图表 8：归纳总结问题的回答对比.10 图表 9：数学问题的回答对比.1

5、3 图表 10：代码生成问题的回答对比.14 图表 11：安全应用问题的回答对比.18 图表 12：生活应用问题的回答对比.19 图表 13：客服场景问题的回答对比.21 图表 14：办公协同问题的回答对比.22 图表 15：推荐场景问题的回答对比.26 图表 16：诗词理解问题的回答对比.28 行业深度研究敬请参阅最后一页特别声明 3 文心一言开放测试后，我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评，测评涉及常识和创作（文学/图片）、归纳和推理（演绎推理/情感推理/逻辑推理/主体信息抽取）、数学和代码、应用（AI 助手/客服/办公协同/推荐/诗词理解）等方面。根

6、据测试结果可以看出，三大模型在客观问题问答方面都有出色表现，但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看，文心一言在图像创作、归纳总结等问题中表现较为出色，但在逻辑推理领域还有待加强。在具体应用中，三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求，但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升，各模型性能都有望进一步优化。图表图表1：三三大模型测评结果综合对比大模型测评结果综合对比应用领域应用领域文心一言文心一言 GPT-3.5 GPT-4 常识和创作常识类问题正确

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（计算机行业深度研究：文心一言、GPT3.5及GPT~4的应用测评对比-230319（32页）.pdf）为本站（alkaid）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。