当前位置:首页 > 报告详情

张松昕-Data-centric LLM training.pdf

上传人: 张** 编号:169171 2024-07-06 26页 3.88MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了数据中心化的LLM(大型语言模型)训练,以及如何通过数据扩展来提高智能水平。文章指出,随着数据规模的扩大,智能水平也在提高。例如,ROOTS数据集包含了从498个不同来源收集的0.34T个标记,用于训练BLOOM模型。然而,目前的数据规模已经不足以训练更高级的LLM。因此,研究者们开始训练参数更小的模型,如LaMA-3 8B,该模型在15T个标记上进行训练。文章还讨论了数据效率的提高,如何通过数据选择和流式数据传输来优化训练过程。最后,文章提出了一种新的训练框架,完全基于流式数据,以应对视频数据处理带来的挑战。
"数据驱动的大模型训练有哪些挑战?" "如何通过数据筛选提升大模型训练效率?" "流式数据如何引领未来人工智能发展?"
客服
商务合作
小程序
服务号
折叠