《王焱林-代码生成遇上大模型进展与挑战.pdf》由会员分享,可在线阅读,更多相关《王焱林-代码生成遇上大模型进展与挑战.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、代码生成遇上大模型:进展与挑战王焱林 中山大学助理教授演讲嘉宾王焱林中山大学助理教授,入选“百人计划”中山大学软件工程学院助理教授、硕士生导师,博士毕业于香港大学,曾任微软亚洲研究院主管研究员。主要研究领域为智能软件工程,尤其是与大模型结合的代码智能,包括代码搜索、代码摘要、代码生成等。已在ICSE、ISSTA、AAAI、ACL等软件工程及人工智能领域的高质量会议和期刊上发表三十余篇学术论文。在多个国际学术会议如ICSE,ISSTA,FSE industry等担任程序委员会委员,是TOSEM,TSE,JSS,EMSE等国际期刊的审稿人。目 录CONTENTS1.代码生成简介2.代码生成技术的历
2、史与现状3.代码生成面临的核心挑战4.大模型与代码生成的未来展望代码生成简介PART 01代码生成简介自动代码生成是指根据给定的自然语言描述或部分代码片段,自动生成满足需求的代码。https:/ 重要性图片来源 https:/ 自动代码生成可以大大提高软件开发和维护效率、简化开发流程、节省大量的人力物力。自动代码生成技术应用后的开发愿景现状,时间紧,任务重,开发者身心俱疲。有了自动生成代码工具,大大减少开发负担。最终,机器可以自动完成编码任务。代码生成任务概览1 Sun,Zeyu,et al.Treegen:A tree-based transformer architecture for c
3、ode generation.Proceedings of the AAAI Conference on Artificial Intelligence.Vol.34.No.05.2020.2 Wang,Yanlin,and Hui Li.Code completion by modeling flattened abstract syntax trees as graphs.Proceedings of the AAAI conference on artificial intelligence.Vol.35.No.16.2021.3 Jiang,Xue,et al.Self-plannin
4、g code generation with large language model.arXiv preprint arXiv:2303.06689(2023).4 Huang,Baizhou,et al.Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency.arXiv preprint arXiv:2309.17272(2023).5 Du,Xueying,et al.Classeval:A manually-crafted benchmark for evaluating
5、llms on class-level code generation.arXiv preprint arXiv:2308.01861(2023).6 Liu,Tianyang,Canwen Xu,and Julian McAuley.RepoBench:Benchmarking Repository-Level Code Auto-Completion Systems.arXiv preprint arXiv:2306.03091(2023).分类相关工作输入输出评价指标语句级别代码生成(statement-level)12自然语言需求、部分代码片段一行代码BLEU、EMCodeBLEU、P
6、assk函数级别代码生成(function-level)34一个函数类级别代码生成(class-level)5一个类仓库级别代码生成(repo-level)6整个项目代码生成技术的历史与现状PART 02经典模型与方法基于模板的代码生成 在代码生成研究早期,主流的技术是基于模板的代码生成方法。这类方法通常基于人工总结的规则和模范构建代码。简介 此类方法解释性高、生成速度快、对计算资源的要求小。优点 需要大量的人工维护,且生成代码逻辑固定,难以满足实际开发场景中复杂的、快速变化的开发需求。缺点经典模型与方法 结合代码特性,设计算法,从数据中提取特征,使用统计学或者概率学的手段建模特性、做出预测和