《百川智能-预训练数据策略的探索与实践.pdf》由会员分享,可在线阅读,更多相关《百川智能-预训练数据策略的探索与实践.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、预训练数据策略的探索与实践演讲:张宇鹏百川智能/预训练数据策略负责0102030405录数据质量数据配代码数据数据合成Take away数据质量01Why data quality import?-Llama vs Phi训练数据量对llama-系列对 phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下,达到了更好的模型效果Why data quality import?-Llama vs Phi训练数据量对llama-系列对 phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10
2、 的条件下,达到了更好的模型效果Densing law of LLMsXiao,C.,Cai,J.,Zhao,W.,Zeng,G.,Lin,B.,Zhou,J.,Han,X.,Liu,Z.,&Sun,M.(2024).Densing Law of LLMs 平均每3.3个就可以半参数的模型达到相同的效果 llama3.3 70b=llama 3.1 405b Gemini 2.0 Flash Gemini 1.5 proopen pretrain dataset少量质量精选数据 fineweb-edu 只1/10 的数据量 就能达到 C4 or dolma 训练全量的结果 DCLM basel
3、ine 训练2.6T 乎和llama3 8b训练15T数据 指标相当data pipelineDedupilcation-why?互联内存在量的重复内容,镜像站点、模板化或以不同域名和上重复的内容;很多研究证明去重可以提升模型的性能,减少预训练数据记忆,有助于更好的泛化能;提训练效率,删除重复内容,模型可以在更少的训练迭代中达到相同的性能平。很多商往往追求激进的去重案、更的去重率,往往在90%以上的去重率Deduplicating Training Data Makes Language Models Better,K.Lee,D.Ippolito,A.Nystrom,C.Zhang,D.Ec
4、k,C.Callison-Burch,N.Carlini.2022.Quantifying Memorization Across Neural Language Models.N.Carlini,D.Ippolito,M.Jagielski,K.Lee,F.Tramer,C.Zhang.2023.Scaling Data-Constrained Language Models.N.Muennighoff,A.M.Rush,B.Barak,T.L.Scao,A.Piktus,N.Tazi,S.Pyysalo,T.Wolf,C.Raffel.2023.More deduplication is
5、always better?Common crawl 桶的概念Dumps used131030100Deduplication Rate(%)3644.26775.390不同桶的去重例 全局去重vs全局去重前 没有带来能的提升https:/huggingface.co/spaces/HuggingFaceFW/blogpost-fineweb-v1More deduplication is always better?https:/huggingface.co/spaces/LLM360/TxT360 https:/huggingface.co/spaces/HuggingFaceFW/blo
6、gpost-fineweb-v1 保留的数据(原始数据的10%)实际上删除的90%的数据更糟糕 保留的数据相移除的包含更多的告、关键词列表以及通常格式较差的本有重复的数据可能是相对更好的数据 找不到桶间重复匹配的数据可能实际上是更差的质量/更偏离分布More deduplication is always better?take away:只有量的重复内容才会影响模型的性能,桶内去重可以去除掉部分常量的重复,同时为下游的质量筛选留出够的空间 过于激进的去重式移除了更多质量数据相保留的数据 根据业务需求制定相应的去重式,不是味的追求去重例 桶内(cc原始100个桶)单独去重,效果好于全局去重 单