计算机行业深度研究:文心一言、GPT3.5及GPT~4的应用测评对比-230319(32页).pdf

编号:119127 PDF  DOCX 32页 6.14MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业深度研究:文心一言、GPT3.5及GPT~4的应用测评对比-230319(32页).pdf

1、 敬请参阅最后一页特别声明 1 OpenAI 于 2023 年 3 月 14 日发布最新版本多模态大模型 GPT-4 及其 API;国内百度于 3 月 16 日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT 的原模型)和 GPT-4 的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。在常识和创作类问题中,三大模型均能正确回答客观常识类问题;进行文学创作结果均能体现正面价值观,但

2、文心一言的分词功能有待提升;目前 GPT-4 尚未开放图像生成外部测试,文心一言的图像生成能力较为出色。在归纳和推理类问题中,文心一言在演绎推理、逻辑推理等领域表现略逊于 GPT 系列模型,但在归纳总结类任务中表现较好;三大模型在情感推理类问题中仍有提升空间。在数学和代码类问题中,GPT-3.5 有更好的数学能力表现;GPT-3.5 及 GPT-4 模型均完成了本文提出的代码生成问题,但并非最优解,文心一言代码问题识别能力有待加强。在应用场景测试中,三大模型均能较好地完成 AI 生活助手、售后客服、产品推荐、办公场景文本生成等任务,但在文言文和古诗词理解运用方面表现不佳。我们认为随百度文心及

3、OpenAI 合作生态伙伴数量快速增长、训练数据量和模型训练能力持续提升,各模型性能都有望实现进一步优化完善。文心一言、GPT-3.5、GPT-4 三大模型在常识问答、文字生成等领域均有出色表现,其中,文心一言虽然在逻辑推理等任务中表现不及 GPT-3.5、GPT-4,但已能够基本满足 AI 助手、售后客服、产品推荐等诸多场景需求。百度文心的开放应用将极大加速国内生成式 AI 模型的落地应用节奏,有望帮助生态伙伴实现用户体验提升和生产降本增效。我们建议关注在 AI 领域进行持续布局且拥有成熟应用场景的公司,如万兴科技、汉得信息、凌志软件、同花顺、金山办公。海外基础软硬件使用受限;应用落地不及预

4、期;行业竞争加剧风险;测评问题有限导致结果或有偏差。行业深度研究 敬请参阅最后一页特别声明 2 内容目录内容目录 1.常识和创作.3 2.归纳和推理.7 3.数学和代码.12 4.现实应用场景测试.17 5.投资建议.30 6.风险提示.30 图表目录图表目录 图表 1:三大模型测评结果综合对比.3 图表 2:常识类问题的回答对比.4 图表 3:文字创作问题的回答对比.4 图表 4:图像创作问题的回答对比.6 图表 5:演绎推理问题的回答对比.7 图表 6:情感推理问题的回答对比.8 图表 7:逻辑推理问题的回答对比.9 图表 8:归纳总结问题的回答对比.10 图表 9:数学问题的回答对比.1

5、3 图表 10:代码生成问题的回答对比.14 图表 11:安全应用问题的回答对比.18 图表 12:生活应用问题的回答对比.19 图表 13:客服场景问题的回答对比.21 图表 14:办公协同问题的回答对比.22 图表 15:推荐场景问题的回答对比.26 图表 16:诗词理解问题的回答对比.28 行业深度研究 敬请参阅最后一页特别声明 3 文心一言开放测试后,我们对文心一言、GPT-3.5 和 GPT-4 的问答表现分别进行了测评,测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI 助手/客服/办公协同/推荐/诗词理解)等方面。根

6、据测试结果可以看出,三大模型在客观问题问答方面都有出色表现,但在数学计算、代码生成、情感理解和推理方面均有待提升。对比来看,文心一言在图像创作、归纳总结等问题中表现较为出色,但在逻辑推理领域还有待加强。在具体应用中,三大模型均能基本胜任 AI 助手、售后客服、产品推荐等场景需求,但在文本修饰及古诗词理解领域仍有提升空间。我们认为随百度文心及 OpenAI 合作生态伙伴数量快速增长、训练数据量及模型训练水平持续提升,各模型性能都有望进一步优化。图表图表1:三三大模型测评结果综合对比大模型测评结果综合对比 应用领域应用领域 文心一言文心一言 GPT-3.5 GPT-4 常识和创作 常识类问题 正确

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业深度研究:文心一言、GPT3.5及GPT~4的应用测评对比-230319(32页).pdf)为本站 (alkaid) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠