《4、OpenSeek-Workshop.pdf》由会员分享,可在线阅读,更多相关《4、OpenSeek-Workshop.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、https:/ LinuxLinuxFlagOpenFlagOpen 2.0 2.0 悟道天鹰Aquila Tele-FLMEVA/EVA-CLIPSegGPT大模型数据处理工具集百模评测榜单首个大模型K12学科测验大模型评测开放平台FlagEvalFlagDataBGEFlagScale+FlagCXFlagTreeFlagRelease大模型算法框架集成多种模型算法集成多样化的优化技术FlagAIEmu3全球最大、支持芯片种类最多的Triton通用算子库FlagGems+FlagAttention成功支持GPGPU、DSA等不同的AI芯片指令架构填补了国际上基于Triton语言、面向多种芯
2、片后端的统一编译器空白推动异构算力合池训练支撑多种AI加速芯片架构的大模型自动发版平台背景背景DeepSeek成为2025年AI领域标志性现象目标目标OpenSeek用开源驱动下一代AI模型构建进展进展200+贡献者三个工作组7TB t o k e n数据4次双周会开源集合创新的新模式以及挑战从“权重开源”向“全要素开源”的演进DeepSeek R1 开源影响力全景图开源影响力全景图 突破性性能突破性性能 MATH-500:97.3%(领先GPT-4o)AIME 2024:79.8%(对标OpenAI-o1)Codeforces Elo 2029(96.3%分位)MMLU:90.8%(SOTA
3、)开源策略开源策略 MIT许可证完全开源 GitHub星标70k+提供1.5B-660B全量程模型 推理成本仅OpenAI的1/10 技术创新技术创新 纯RL训练免SFT 多阶段训练管道 首创自验证推理机制 API全平台开放 生态影响生态影响 Hugging Face Open-R1项目 24G显存跑满血版671B模型 Azure/GitHub官方集成 登顶App Store免费榜综合来看,DeepSeek R1 的开源影响力源于其卓越性能、创新训练方法、透明技术报告、宽松许可和社区生态支持。其不仅在技术上推动了 LLM 推理能力的发展,还在经济和地缘政治层面引发讨论,成为 2025 年开源
4、AI 领域的标志性事件。模型效果与数据量呈现非线性增长,但存在“高效者”DeepSeek大模型性能演化趋势大模型性能演化趋势Aquila和Aquila2:首个具备中英双语知识、支持商用许可协议(7B/34B/70B,8x16B)AltCLIP:换文本塔来扩展CLIP模型语言能力,低资源高效AltDiffusion:换文本塔来扩展Diffusion模型语言能力,支持18种语言2023年模型工作年模型工作在模型训练过程中发现数据数据是模型性能的基石基石2024年数据工作年数据工作数据合成标签体系数据筛选数据合成标签体系数据筛选来源可信教育水平质量标注Aquila-VL-2BInfinity-Ins
5、tructAquilaMoEEmu3从“模型创新”转向“数据数据+开源开源双轮驱动”4OpenSeek时间规划时间规划从“数据+开源”到“技术-社区集合开源创新集合开源创新”新模式,构建可持续AI生态 三个工作组三个工作组系统系统多芯片支持DeepSeekV3的高效训练数据数据10TB 级别双语+合成优质数据(CCI4.0)算法算法合成数据、模型结构、训练算法和系统优化改进DeepSeek V3和和R1的主要技术点的主要技术点MOEMOE 1个共享专家,256个路由专家(每次激活8个),首三层dense结构MLAMLA 高效支持长序列MTPMTP多 token 预测训练目标,提升下游指标FP8
6、FP8训练,极致的针对性优化DualPipeDualPipe分布式训练策略DONEDOLINGTODOModel Architecture SupportoMLA,DeepSeek MoE,MTP etc.Huggingface CompatibilityoConversion ckpt between FlagScale and Huggingface parametersMoE Parallelism OptimizationoPerformance analysis of the current DeepSeekMoE distributed training implementatio