刘东-NASL领域大模型训练.pdf-在线下载-三个皮匠报告

1、NASL领域大模型训练刘东|网易数智刘东网易 AI算法专家2012年毕业于清华大学电子工程系，长期从事人工智能领域算法与系统的研发工作，参与过OCR、语音识别、机器翻译、机器学习平台等多个方向的项目研发，目前主要负责网易CodeWave产品中NASL大语言模型以及多模态模型的相关研发工作。目录CONTENTSI.CodeWave智能开发平台与NASL语言介绍II.NASL领域模型训练项目背景III.NASL领域模型训练整体思路IV.NASL领域数据构造挑战与解决方案V.模型训练与评测VI.总结与展望CodeWave智能开发平台与NASL语言介绍PART 01CodeWave智能开发平台介绍

2、网易数智旗下低代码产品提供可视化的开发环境通过图形化界面、拖拽组件、配置参数等方式来创建应用程序无需编写大量的传统代码CodeWave相对传统开发的优势传统应用开发概念多，技术栈复杂，对开发人员要求高低代码产品降低用户门槛，没有深厚编程背景的业务人员也可使用CodeWave整体技术方案以统一的NASL语言为核心提供完善的工具链用户在IDE中的可视化编辑，本质是在写NASL代码CodeWave核心NASL语言 Next Application Specific Language 基础语言特定领域子语言CodeWave面临的挑战与思路用户的顾虑有学习成本开发效率、开发质量能

3、否提升解决思路引入基于AI的copilot工具辅助用户自然语言写代码、代码补全算法需求：底层需要懂NASL语言的大模型驱动NASL领域模型训练项目背景PART 02NASL领域模型训练背景现有大模型均不了解NASL语言NASL领域模型训练prompt方案通过优化提示词的方式，有一定效果NASL领域模型训练prompt方案评测基础语言部分HumanEval测试集人工排除与web开发完全无关的问题，剩余问题改写为中文模型通过率gpt-4o-mini33.14%gpt-4o55.86%deepseek-V340.86%deepseek-R144.29%deepseek-70b29.0

4、0%claude-3.760.71%NASL领域模型训练prompt方案评测相比其它主流语言还有很大的提升空间主要表现是幻觉严重，语法错误多本质上是考验大模型的指令遵循能力 prompt需要持续增加要求但大模型无法完全遵守NASL领域模型参数训练的必要性自行训练NASL领域模型相比采用通用模型有优势 CodeWave以私有化部署交付的模式需要NASL领域模型的支撑NASL领域模型(7/14B)通用模型(gpt/claud/deepseek)生成效果好一般生成速度快慢私有化部署支持除deepseek外均不支持部署成本低，单GPU卡高，GPU集群NASL领域模型训练整体思路PART 03N

5、ASL领域模型训练整体思路直接在对话模型基础上做指令微调先从基础语言部分入手，再逐步扩展逻辑、实体定义、数据查询等子语言领域不做预训练的考虑缺少大量的高质量NASL代码库，数据获取成本太高选择大模型更加熟悉的Natural TS代码作为NASL的表达方式基座模型选择持续跟踪和评测开源模型主要使用了DeepSeek-Coder、Qwen-Coder 基座模型性能接近，决定最终效果的核心因素是数据的质量NASL领域数据构造挑战与解决方案PART 04NASL领域数据构造目标数据的形式项目上下文是可选项NASL领域数据构造指令收集主要从开源数据中收集原始指令，如opencoder、

6、wikisql等对原始指令做中文改写以及质量过滤和CodeWave产品相关性指令的难度分布对于开源数据不覆盖的场景，人工借助llm做构造部分nasl函数的特定使用方式包含项目上下文的场景等大部分指令包含对应的测试用例NASL领域数据构造语言沙箱 CodeWave语言实验室提供轻量化NASL语言沙箱语言编译：语法正确性判断静态类型检查最佳实践检查代码执行：环境隔离并行执行系统和浏览器环境模拟数据库和外部依赖模拟结果比对NASL领域数据构造代码合成的挑战