当前位置:首页 > 报告详情

OpenSeek高质量数据集构建开源实践.pdf

上传人: 芦苇 编号:651587 2025-05-01 47页 10.62MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了OpenSeek高质量数据集构建开源实践,由刘广智源研究院数据研究组提出。OpenSeek旨在用开源驱动下一代AI模型构建进展,目前已有200+贡献者,三个工作组,7TB token数据,4次双周会。OpenSeek从“权重开源”向“全要素开源”演进,构建可持续AI生态。主要内容包括:系统组的多芯片支持DeepSeekV3的高效训练,数据组构建10TB级别双语+合成优质数据(CCI4.0),算法组的数据配比、模型结构、训练算法和系统优化改进。此外,还介绍了DeepSeekV3和R1的主要技术点,如MOE、MLA、MTP、FP8训练和DualPipe分布式训练策略。最后,文章还讨论了数据处理实验结果,如CCI4.0-M2-Base英文数据来源、全局去重和字符串去重、多个质量模型综合分档等。
如何参与OpenSeek项目? 如何提升数据质量? 如何优化分布式训练?
客服
商务合作
小程序
服务号
折叠