当前位置:首页 > 报告详情

百川智能-预训练数据策略的探索与实践.pdf

上传人: le****ng 编号:186910 2024-12-17 36页 5.13MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了预训练数据策略的探索与实践,重点关注数据质量、数据配比、代码数据和数据合成等方面。核心数据显示,得益于数据质量的不断探索和优化,Phi系列模型在计算FLOPS不到Llama系列1/10的条件下,达到了更好的模型效果。关键点包括:1) 数据质量对模型效果至关重要,低质数据带来的影响远超高质量数据;2) 去重策略和质量息息相关,应根据实际业务需求定制;3) 数据质量并不是一个很好被定义的术语,不应完全以人类的偏好进行数据筛选;4) 根据knowledge的分类采样可以比根据domain粒度的采样获得更好的效果;5) 数据配比可以采用小模型拟合scaling law的形式来确定,显著减少对大规模模型实验的依赖;6) 代码数据对于提升代码能力和通用能力至关重要,合适的代码合成策略(QA、多步、o1)可以大大提高代码能力。
"如何提升预训练数据质量?" "代码数据对AI模型有何重要性?" "如何通过数据实验阶段选择优化数据比例?"
客服
商务合作
小程序
服务号
折叠