当前位置:首页 > 报告详情

清华大学:从千亿模型到ChatGPT的一点思考(2023)(67页).pdf

上传人: 杨*** 编号:124041 2023-04-27 67页 14.55MB

报告标签

ChatGPT报告 AI大模型报告
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了从千亿模型到ChatGPT的发展历程,以及清华大学知识工程实验室开发的GLM-130B模型。关键点如下: 1. 千亿模型的发展历程:从GPT-2到GPT-3,再到ChatGPT,模型参数和能力不断提升。 2. GLM-130B模型的特点: - 参数规模:1300亿,是当前最大的中文预训练模型之一。 - 性能:在多个中文和英文基准测试中,GLM-130B的性能优于其他主流模型。 - 推理效率:支持INT8和INT4量化,可以在普通GPU上进行高效推理。 - 跨平台:支持在NVIDIA、海光DCU、昇腾910和申威处理器上训练。 3. ChatGPT的诞生:通过人类反馈强化学习,将GPT-3转化为对话模型,大幅提升生成结果质量。 4. GLM-130B模型的应用:可用于多轮对话、文本生成、数学题求解、代码生成等任务。 5. 未来发展方向:探索更强大的预训练模型,以及面向认知的新理论。
千亿模型如何实现高精度与高效推理? ChatGLM如何通过强化学习提升生成结果质量? GLM-130B如何实现跨平台适配与低门槛推理?
客服
商务合作
小程序
服务号
折叠