报告预览

百川智能-预训练数据策略的探索与实践.pdf

编号：186910

PDF 36页 5.13MB 下载积分：VIP专享

下载报告请您先登录！

百川智能-预训练数据策略的探索与实践.pdf

1、预训练数据策略的探索与实践演讲：张宇鹏百川智能/预训练数据策略负责0102030405录数据质量数据配代码数据数据合成Take away数据质量01Why data quality import?-Llama vs Phi训练数据量对llama-系列对 phi-系列得益于数据质量的不断探索和优化，Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下，达到了更好的模型效果Why data quality import?-Llama vs Phi训练数据量对llama-系列对 phi-系列得益于数据质量的不断探索和优化，Phi系列模型在总计算FLOPS 不到Llama系列1/10

2、的条件下，达到了更好的模型效果Densing law of LLMsXiao,C.,Cai,J.,Zhao,W.,Zeng,G.,Lin,B.,Zhou,J.,Han,X.,Liu,Z.,&Sun,M.(2024).Densing Law of LLMs 平均每3.3个就可以半参数的模型达到相同的效果 llama3.3 70b=llama 3.1 405b Gemini 2.0 Flash Gemini 1.5 proopen pretrain dataset少量质量精选数据 fineweb-edu 只1/10 的数据量就能达到 C4 or dolma 训练全量的结果 DCLM basel

3、ine 训练2.6T 乎和llama3 8b训练15T数据指标相当data pipelineDedupilcation-why?互联内存在量的重复内容，镜像站点、模板化或以不同域名和上重复的内容；很多研究证明去重可以提升模型的性能，减少预训练数据记忆，有助于更好的泛化能；提训练效率，删除重复内容，模型可以在更少的训练迭代中达到相同的性能平。很多商往往追求激进的去重案、更的去重率，往往在90%以上的去重率Deduplicating Training Data Makes Language Models Better,K.Lee,D.Ippolito,A.Nystrom,C.Zhang,D.Ec

4、k,C.Callison-Burch,N.Carlini.2022.Quantifying Memorization Across Neural Language Models.N.Carlini,D.Ippolito,M.Jagielski,K.Lee,F.Tramer,C.Zhang.2023.Scaling Data-Constrained Language Models.N.Muennighoff,A.M.Rush,B.Barak,T.L.Scao,A.Piktus,N.Tazi,S.Pyysalo,T.Wolf,C.Raffel.2023.More deduplication is

5、always better？Common crawl 桶的概念Dumps used131030100Deduplication Rate(%)3644.26775.390不同桶的去重例全局去重vs全局去重前没有带来能的提升https:/huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1More deduplication is always better？https:/huggingface.co/spaces/LLM360/TxT360 https:/huggingface.co/spaces/HuggingFaceFW/blo

6、gpost-fineweb-v1 保留的数据（原始数据的10%）实际上删除的90%的数据更糟糕保留的数据相移除的包含更多的告、关键词列表以及通常格式较差的本有重复的数据可能是相对更好的数据找不到桶间重复匹配的数据可能实际上是更差的质量/更偏离分布More deduplication is always better？take away:只有量的重复内容才会影响模型的性能，桶内去重可以去除掉部分常量的重复，同时为下游的质量筛选留出够的空间过于激进的去重式移除了更多质量数据相保留的数据根据业务需求制定相应的去重式，不是味的追求去重例桶内(cc原始100个桶)单独去重，效果好于全局去重单

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（百川智能-预训练数据策略的探索与实践.pdf）为本站（learning）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。