1、NASL领域大模型训练刘东|网易数智刘东网易 AI算法专家2012年毕业于清华大学电子工程系,长期从事人工智能领域算法与系统的研发工作,参与过OCR、语音识别、机器翻译、机器学习平台等多个方向的项目研发,目前主要负责网易CodeWave产品中NASL大语言模型以及多模态模型的相关研发工作。目 录CONTENTSI.CodeWave智能开发平台与NASL语言介绍II.NASL领域模型训练项目背景III.NASL领域模型训练整体思路IV.NASL领域数据构造挑战与解决方案V.模型训练与评测VI.总结与展望CodeWave智能开发平台与NASL语言介绍PART 01CodeWave智能开发平台介绍
2、网易数智旗下低代码产品 提供可视化的开发环境 通过图形化界面、拖拽组件、配置参数等方式来创建应用程序 无需编写大量的传统代码CodeWave相对传统开发的优势 传统应用开发概念多,技术栈复杂,对开发人员要求高 低代码产品降低用户门槛,没有深厚编程背景的业务人员也可使用CodeWave整体技术方案 以统一的NASL语言为核心 提供完善的工具链 用户在IDE中的可视化编辑,本质是在写NASL代码CodeWave核心NASL语言 Next Application Specific Language 基础语言 特定领域子语言CodeWave面临的挑战与思路 用户的顾虑 有学习成本 开发效率、开发质量能
3、否提升 解决思路 引入基于AI的copilot工具辅助用户 自然语言写代码、代码补全 算法需求:底层需要懂NASL语言的大模型驱动NASL领域模型训练项目背景PART 02NASL领域模型训练背景 现有大模型均不了解NASL语言NASL领域模型训练prompt方案 通过优化提示词的方式,有一定效果NASL领域模型训练prompt方案评测 基础语言部分HumanEval测试集 人工排除与web开发完全无关的问题,剩余问题改写为中文模型通过率gpt-4o-mini33.14%gpt-4o55.86%deepseek-V340.86%deepseek-R144.29%deepseek-70b29.0
4、0%claude-3.760.71%NASL领域模型训练prompt方案评测 相比其它主流语言还有很大的提升空间 主要表现是幻觉严重,语法错误多 本质上是考验大模型的指令遵循能力 prompt需要持续增加要求但大模型无法完全遵守NASL领域模型参数训练的必要性 自行训练NASL领域模型相比采用通用模型有优势 CodeWave以私有化部署交付的模式需要NASL领域模型的支撑NASL领域模型(7/14B)通用模型(gpt/claud/deepseek)生成效果好一般生成速度快慢私有化部署支持除deepseek外均不支持部署成本低,单GPU卡高,GPU集群NASL领域模型训练整体思路PART 03N
5、ASL领域模型训练整体思路 直接在对话模型基础上做指令微调 先从基础语言部分入手,再逐步扩展逻辑、实体定义、数据查询等子语言领域不做预训练的考虑 缺少大量的高质量NASL代码库,数据获取成本太高 选择大模型更加熟悉的Natural TS代码作为NASL的表达方式基座模型选择 持续跟踪和评测开源模型 主要使用了DeepSeek-Coder、Qwen-Coder 基座模型性能接近,决定最终效果的核心因素是数据的质量NASL领域数据构造挑战与解决方案PART 04NASL领域数据构造目标数据 的形式 项目上下文是可选项NASL领域数据构造指令收集 主要从开源数据中收集原始指令,如opencoder、
6、wikisql等 对原始指令做中文改写以及质量过滤 和CodeWave产品相关性 指令的难度分布 对于开源数据不覆盖的场景,人工借助llm做构造 部分nasl函数的特定使用方式 包含项目上下文的场景等 大部分指令包含对应的测试用例NASL领域数据构造语言沙箱 CodeWave语言实验室提供轻量化NASL语言沙箱 语言编译:语法正确性判断静态类型检查最佳实践检查 代码执行:环境隔离 并行执行 系统和浏览器环境模拟 数据库和外部依赖模拟 结果比对NASL领域数据构造代码合成的挑战