当前位置:首页 > 报告详情

人工智能行业数据集构建及模型训练方法实践周华.pdf

上传人: 张** 编号:175735 2024-09-09 36页 6.11MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了人工智能行业数据集构建及模型训练方法实践。主要内容包括: 1. 行业数据集的制作技术分享,包括语种划分、行业分类和质量评估等步骤。 2. 行业模型训练新范式的实践,提出了CSR(CPT-SFT-RLHF)训练范式,包括继续预训练(CPT)、精调训练(SFT)和人类反馈强化学习(RLHF)三个阶段。 3. NL2SQL助力大模型与传统IT系统集成,介绍了AquilaSQL模型,通过自然语言生成SQL语句,实现大模型与传统IT系统的集成。 文中还提到了智源IndustryCorpus1.0数据集,包含3.4T多行业中英双语数据,以及Aquila-Med技术报告等。
行业大模型落地难在哪里? 如何提升行业数据集的质量? 行业模型训练新范式有哪些?
客服
商务合作
小程序
服务号
折叠