《匡宏宇-大语言模型时代需求自动追踪技术.pdf》由会员分享,可在线阅读,更多相关《匡宏宇-大语言模型时代需求自动追踪技术.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、大语言模型时代需求自动追踪技术匡宏宇 南京大学演讲嘉宾匡宏宇CCF软件工程专委会执行委员/持续研究自动化软件追踪十余年南京大学软件学院助理研究员,软件研发效能实验室核心成员,十余年来持续研究软件可追踪性、代码库挖掘、程序理解等软件开发相关方向,曾获ACM南京分会优秀博士论文、AIIDE 2019 Best Paper、教育部-华为“智能基座”栋梁之师等奖项,开发运维一体化成熟度模型国家标准的主要起草人之一(产品与需求部分),共发表论文20余篇,其中一作/通讯作者论文11篇(包含ICSE、FSE、ASE等顶尖软工会议论文),应邀担任过SANER 2024 程序委员,JSEP、JSS、SoSyM期
2、刊审稿人,EASE2024 Publicity Lead(China)等学术兼职,主持南京大学软件学院需求课程体系建设与教学工作,主持并结题国自然青年基金一项,参与并完成多项重点企业技术合作。软件研发效能南京大学ICS!#$%$&(&)*&中 华 人 民 共 和 国 国 家 标 准中 华 人 民 共 和 国 国 家 标 准 GB/T XXXXXXXXX !#$%&()*+,-./(0123456(!#$%&()*!+,$-(.%/)01)%.1)023%4%5+6&%)$()*76%.($1+)#28(6(9151$:($;.1$:+*%5 在提交反馈意见时,请将您知道的相关专利连同支持性文件
3、一并附上。2 2 2 2!?%+,-.&/0/&10 4&bcdefghPrst&成熟度三级 成熟度四级 成熟度五级 成熟度二级 PGL2 PGL3 PGL4 PGL5 PGL1 MA PDP SSP STP ESP MC ROM SM GOV PII PAM PROM PERM OT CAR CM SEC DAR PQA RQE AD IMP BI TE CICD SD SVCM SC STS ES 项目管理 过程改进 支持和保障 产品研发 服务管理 基础设施 o DevOps/研发效能全位科研o DevOps教材及课程建设o DevOps知识体系构建o DevOps能成熟度国家标准制定o
4、DevOps/研发效能全流程产业合作研究o DevOps/研发效能中国年度调查o DevOps/研发效能中国社区建设o DevOps/研发效能国内/国际学术论坛o DevOps/研发效能学术论(260+260+)及专利(80+80+)o CCF-华为胡杨林基成以来唯连续3 3年持续获得资助的科研团队实验室科研框架LLMLLMLLMLLMLLMLLM目 录CONTENTS1.需求自动追踪技术背景与发展2.LLM时代需求追踪的重要价值3.基于LLM的需求追踪技术初探4.本人代表研究简介(请多指正)5.总结与展望需求自动追踪技术背景与发展PART 01引言:为何要在软件项目开发中“溯源需求”?项目开
5、发者视角:如何快速融入团队?以下为亲身经历 被某世界级通讯技术公司专家当面质问:“你是大学老师?你们课上都在教些什么?”大哥为何愤怒:招来的名校新人程序员“不指定具体PRD和单元测试就写不出代码”假设我们的培养“完美无缺”:学生充分掌握数学基础、编程范式、主流框架、实践经验但TA大概率仍无法全面快速“上手”主流项目:不了解(复杂)项目的系统功能与演进历史氛围良好、成熟稳定的开发团队可以缓解这一问题,但问题本质是系统功能与实现之间缺乏明确关联 项目管理者视角:如何治理、盘活已有项目资产?知名网游IP魔兽世界:“原汁原味”的怀旧服 vs.“锐意创新”的私服掌握全部项目资产的官方 直接上线包含所有缺
6、点的经典版本自行破解还原的“同人”推出多个广受好评的改版(官方对此类明确侵权行为态度暧昧)为何?-项目代码复杂冗余,开发团队人员流失,项目退化为遗产代码(只能运行,无法维护更新)旁证:永远16格的初始背包容量,官方解释“相关代码在整个游戏最底层,无法精准定位,贸然修改将导致无数BUG”2018年7.3.5版本尝试升级为20格,结果导致该版本在地图、进度、角色、装备等各个方面均涌现出严重错误如何系统性应对此类问题?需求可追踪性:显式标识需求以及其它软件制品之间的联系 软件可追踪性是软件系统所能具有的一种特性:CoEST,the Center of Excellence for Software
7、and Systems Traceability,http:/www.coest.org 系统中任意一个可被唯一标识出的软件制品(software artifact,如需求、设计、代码、测试等)与其它制品之间的关联关系 这些关联关系能够随时间的变化而得到维护 由这些关联关系组成的网络可以解答与一个软件系统及其开发流程相关的各类问题 最早以需求可追踪性的方式提出GotelRE 1994重点关注需求(功能期望)到代码(实际运行)可追踪性Requirement Trace Matrix(RTM)需求可追踪性的诞生1968+:概念探索p 在1969年NATO 软件程会议(定义了著名的“软件危机”问题)
8、上讨论了软件可追踪性的概念与作p 70年代军软件强制要求,美国防部 1985 年发布DOD-STD-2167A标准p IEEE Std 830-1984:IEEE Guide to Software Requirements Specifications1970s-1980s:开发实践1994+:正式定义p Gotel 等正式定义了需求可追踪性,提出需求可追踪性应该在软件系统中“普遍存在”GotelRE1994发了什么导致需求可追踪性“出圈”从军项向般软件开发?需求可追踪性成为软件开发规范 诱因:“The Patriot Missile Failure”的快速修复 爱国者导弹拦截失败导致的海湾
9、战争中美军单次最大损失 原因:战时长期开机积累的时钟漂移(使用的浮点数精度不足)1991.2.25日袭击发生,2.26日制造商雷神发布修正软件 结果:可追踪性引发热议并在90年代成为软件开发规范“You cannot manage what you cannot trace”WatkinsIEEE Software 1994 需求可追踪性应该在软件系统中“普遍存在”GotelRE1994 软件团队能力成熟度CMMI 3级以上“要求实现”可追踪性 仍是当前诸多关键领域软件的强制要求,如DoD、FAA、FDA、NASA等机构、核心网络设备、金融企业的safe-critical软件正向开发反向追踪需
10、求可追踪性走入日常开发的价值、困难与挑战 价值:有效提升(敏捷)软件开发的质量与效率(普通新手)开发者通过软件可追踪性可获取(至少)以下关键信息:代码库中需更改的代码元素,受影响的user story与测试用例,以及可咨询的项目组内开发者 Cleland-HuangFOSE 2014 有效帮助理解已有代码与开发任务:“当前软件开发人员阅读代码与编写代码的耗时比例超过10:1”Robert C.Martin 2008-Clean Code:A Handbook of Agile Software Craftsmanship 软件维护任务在需求到代码可追踪性的支持下,正确率提高了60%,效率提高了
11、20%MaederICSM 2012 在质量保证RathTSE 2017、系统安全MoranICSE 2020、缺陷定位NiuICSE 2023等研究中被广泛应用 困难:人工实现可追踪性代价大、成本高 人工追踪成本近似于开发本身,导致现实系统中并不常见RameshJournal of Defense Software Engineering 1995 挑战:如何使得需求(软件)可追踪性“广泛存在”Grand Challenge of Software Traceability:Ubiquitous GotelRE 2012 引入自动化分析技术,构建高效、可信的需求自动追踪技术与工具自动化需求追
12、踪在软件工程领域研究中的发展2005:确立方向p 领域内专业workshopTEFSE开始接受软件可追踪性相关主题学术投稿p 总结软件可追踪性的发展趋势并展望未来方向:满足实际需求,实现可追踪性的低成本高价值、可配置、可信、可控、便捷2014:承上启下2017:继往开来p 探讨下一个十年的发展:如何利用软件代码库中的大数据、基于(深度)学习的自动化追踪技术、生产实践中的运用等近15年需求自动追踪生成技术发展文献综述(2010-2024)文献来源:数据库名称搜索范围初步检索结果ACM Digital Library标题+摘要+关键词1969IEEE Xplore标题+摘要+关键词799Web o
13、f Science标题+关键词1910Science Direct标题+摘要+关键词54SpringerLink标题+摘要+关键词3488Scopus标题+摘要+关键词1781(traceability OR requirements trac*OR software trac*OR link recover*OR trace recover*)AND(artifact OR artefact OR document OR software OR requirement OR issue)AND(recover*OR retriev*OR generat*OR creat*)NOT(food
14、OR network security OR sensors network OR supply chain OR genetic traceability OR block chain)搜索词条:筛选条件:包含包含标准1论文发表时间:2010.12024.6之间.包含标准2论文相关性:主题与软件可追踪相关.包含标准3论文完整性:如会议论文,进一步扩展为期刊论文,只保留期刊论文版本,排除会议论文版本包含标准4论文权威性:经过同行评审且已正式发表的论文,排除书籍章节、硕博论文等包含标准5论文语言:用英语撰写的论文.包含标准6论文页数:大于等于5页包含标准7论文等级:CCF A/B/C,或可追踪相
15、关会议TEFSE,SST剔除剔除标准1违反包含标准中的任意条剔除标准2论主题为软件可追踪的维护、管理、使与应,可追踪成技术相关文献在高水平会议期刊上的分布会议期刊会议111(67%)期刊55(33%)会议期刊会议+期刊长期研究热点,重点分布于顶会ICSE、软件维护主题的一流会议期刊、专题Workshop等自动追踪技术演化趋势IRMLDLLLM201020112012201320142015201620172018201920202021202220232024S2,S3,S7,S10,S12S5,S6,S7S17,S18,S19,S24,S26S20,S23S30,S32,S34,S40,S4
16、2,S43,S56S44,S45,S47,S49,S50,S52,S53,S54,S57,S59,S60,S62S64,S65,S66S68,S70,S71,S72,S74S69S77,S78,S79S75S94,S95S80,S90S81,S85,S87,S88,S92,S97,S101,S102,S104S98,S99,S100,S105,S107S113,S114,S119S106,S110S108,S109,S111,S116,S118S120,S124,S122,S126,S127S133,S135,S136S129,S130,S132,S131,S134,S135,S136,S13
17、8S140,S142,S143,S148,S149,S150S144S143,S146,S147S152,S154S153S155,S159S161S164S160,S162信息检索技术和传统机器学习方法广泛应用于可追踪生成技术的研究深度学习技术越来越多的应用于可追踪生成技术开始尝试使用LLM自动追踪目标制品:从传统文档到代码库制品传统开发制品协作开发制品需求工程软件设计软件实现软件测试软件交付软件维护需求测试用例UML体系结构代码用户手册缺陷报告.软件生命周期.Issue Track Systems(ITSs)Report IssuesVersion Control Systems(VCSs
18、)reporterassigneeAssign IssuesauthorcommittercreatorissuesFix IssuesCommit code changecommit messagechanged filesCommitReleaseversionMergeLLM+需求自动追踪后续工作展望信息检索式学习式传统开发制品软件仓库制品检索式+代码库制品 约5篇学习式+代码库制品 约30余篇检索式+传统制品 约50余篇学习式+传统制品 约5篇LLM时代需求追踪的重要价值PART 02 某著名蓝色支付软件 安卓APP“瘦身”非必须系统功能的遗留使得软件过于“臃肿”,导致用户体验下降并增
19、加安全风险 采用动态监控的方式逐步锁定冗余功能“MiniMon:Minimizing Android Applications with Intelligent Monitoring-Based Debloating”,ICSE 2024 若有可追踪性的支持,可在源码层面实现功能定位与系统重构 某造车大成功的IoT生态公司 安卓OS社区被迫封闭 机型丰富加重“安卓碎片化”,被迫大幅弱化系统的用户可定制性,关键的12.5版本发布也被拖累 若有可追踪性的支持,可在源码层面实现“自底向上”的软件产品线模型构建与系统特性定制 大模型出现后的时代需要 开发过程数据资产化是大模型助力软件开发的前提 要充分
20、利用大模型的对话式交互与超强文本归纳能力,必须有效治理、组织、利用开发过程中的各类数据 需求可追踪性能够在不同类型、不同格式的制品之间显式建立追踪线索,是开发数据资产化的关键需求可追踪性对软件开发的积极作用 知名软件产品视角需求可追踪性在大模型时代对软件开发的重要作用 目前LLM是否已彻底改变软件开发?对程序员的个体编码能力提升较为明显 但从软件开发的人、过程、制品三个维度来看,整体效率并未大幅提升 “理解代码”的难度要远高于“写出代码”基于系统功能显式关联各个软件制品的软件(需求)可追踪性是程序理解的关键1.模型在具体开发任务上有赖于对专数据的利2.有必要在通模型的基础上构建专模型3.构建专
21、模型需要构建质量数据集与验证集4.将模型与已有技术结合是值得去做的宝贵尝试5.项专家依然需要项微调专模型,微调后的模型可以提供对话式的端到端交互 如何更好地在特定领域项目开发上应用LLM?ChatGPT类通用大模型是在海量数据上的一次“最优化拟合”,难以直接回答特定问题,必须依赖有效的Prompt引导通用大模型“聚焦”进一步通过开发数据资产化积累项目日常开发的高质量数据,从而基于这些数据构建专用的“小”大模型 数据资产化的核心是软件可追踪性的高效实现 将软件开发与LLM充分结合后的前景展望(代差)?有效应对软件开发的进一步复杂化 LLM时代会出现更多AI-Intensive系统,代码将不再是唯
22、一关键制品(额外涉及AI模型与训练数据)对软件(需求)可追踪性也提出了更高要求 开发效率持续提升后增强企业业务创新能力BizDevOps“引导”模型有效助特定软件项开发有赖于可追踪性的实现与引基于LLM的需求追踪技术初探PART 03需求追踪的本质问题:概念指派(Concept Assignment)生成或维护需求与代码之间的追踪关系的本质问题,是要将模糊的人脑概念与明确的代码元素关联起来,即所谓的概念指派问题Biggerstaff et al.,ICSE 1993 人脑概念基于自然语言和领域知识,而代码逻辑基于数理逻辑与数学运算,二者存在本质区别 需要人的创造跨越二者间的语义鸿沟-正向指派即
23、为软件开发,逆向指派即为软件(需求)追踪正向开发逆向追踪有了需求追踪加持的软件开发才能实现问题空间到解空间的持续转化,从而有效提升当前以软件维护与演化为核心的软件(敏捷)开发质量与效率已有自动追踪技术的本质与趋势代码Names&CommentsControl flowData flow验证基于制品本相似度构建候选列表构造可视化代码结构展开追踪基于构造测试集合组动态追踪需求需求信息检索技术(半)自动追踪(生成)技术共通点挖掘用户开发的已有软件制品所包含的系统语义代码结构、测试集合、制品文本、开发记录等优先降低用户追踪成本,进而提升追踪质量辅助追踪 构造测试 搜索筛选 日常标注考虑到当前软件开发与
24、概念指派的本质,需求追踪无法实现全自动化“Human in the Loop”式的半自动化需求交互式法动态执法检索式法基于代码库提交时标注的Issue-Commit对机器学习技术系统功能档学习式法基于信息检索的自动追踪生成技术概述步骤:1.本预处理p写转换、去除特殊字符、去除停词、提取词2.使IR模型计算本相似度,成候选追踪列表p常检索模型:VSM,LSI,JSD,BM25,LDA等3.分析并优化候选追踪列表,得到最终追踪列表优点:p 法直观,可解释性强p 可扩展性强不:p 语义鸿沟,单词失配p 对上下和语义理解能有限p 丢失部分本特征成候选追踪线索列表成词项档矩阵d1d2d3 .dnt1t2
25、.tnIR 模型分类分析开发员按IR值降序排列候选追踪线索分析标制品源制品本预处理主要基于制品文本增强,以及结合软件制品特性的排序优化。更复杂的IR模型作用有限(因制品文本质量较差)基于机器学习的自动追踪生成技术概述标制品源制品.已标记数据.未标记数据提取特征模型训练提取特征.分类结果分类器步骤:优点:p 模型简洁,可解释性较好p 可利先验知识不:1.本预处理p写转换、去除特殊字符、去除停词、提取词(与检索式法类似)2.特征提取(各类本相似度是重要的特征组成部分)3.模型训练p模型选择、训练设置4.使训练得到的模型预测追踪线索p 特征选择对模型性能影响显著p 需要质量的标注数据p 对复杂问题的
26、解决能有限分类器相于经典机器学习应,可于学习式动追踪成的数据少且质量差,同时临严重的标签不平衡问题(RTM极为稀疏),需要更全的特征程构建,以及多种标签增强技术基于深度学习的自动追踪生成技术概述优点:p 减少特征程需求p 更好的进上下与语义理解不:标制品源制品模型训练词 嵌 Word2Vec,GloVe,ELMo,BERT.神经络RNN,CNN,LSTM,GAN,GRU.追踪线索预测候选追踪线索1.基于词嵌的本预处理2.选择神经络(含下游模型配置)pRNN(LSTM or GRU)、CNN、Transformer3.训练神经络模型p模型构建、训练设置4.使训练得到的模型预测追踪线索p 对计算资
27、源需求较p 模型本可解释较弱p 需应对可追踪领域数据规模较步骤:逐步转所有制品向BERT系模型并结合后续增强策略,可为本构建个完整模型或为每类制品构建单独模型再联合自动追踪技术演化趋势IRMLDLLLM201020112012201320142015201620172018201920202021202220232024S2,S3,S7,S10,S12S5,S6,S7S17,S18,S19,S24,S26S20,S23S30,S32,S34,S40,S42,S43,S56S44,S45,S47,S49,S50,S52,S53,S54,S57,S59,S60,S62S64,S65,S66S68,
28、S70,S71,S72,S74S69S77,S78,S79S75S94,S95S80,S90S81,S85,S87,S88,S92,S97,S101,S102,S104S98,S99,S100,S105,S107S113,S114,S119S106,S110S108,S109,S111,S116,S118S120,S124,S122,S126,S127S133,S135,S136S129,S130,S132,S131,S134,S135,S136,S138S140,S142,S143,S148,S149,S150S144S143,S146,S147S152,S154S153S155,S159S
29、161S164S160,S162信息检索技术和传统机器学习方法广泛应用于可追踪生成技术的研究深度学习技术越来越多的应用于可追踪生成技术开始尝试使用LLM加深对本的分析,减弱对的依赖,逐步实现具的轻量化和常化基于大模型的需求自动追踪:进展如何?基于GPT3.5的Prompts设计标模型泛于需求程前期分析基于输的安全标追踪到了对应的安全需求并给出解释在个系统上进了初步实验,Precision 100%,但漏掉了三个相关trace,重新请模型判断,模型认为均是有关的(随机性)基于大模型提示工程的需求自动追踪:优点与问题模型优点:能够扩充语义(缩写)基于Claude(整体效果更好,允许更的提示输)基于
30、大模型提示工程展开需求追踪的问题 对不同抽象层级制品的语义关联感到“难以接受”,需要强调制品来自于同一个系统 Prompt提示后有一定效果但不够明显(结果偏向高查全率)提示文本细节(单词复数、词组顺序)对结果影响较大 在词嵌入方面也未体现出显著优势初步观察结论:模型具备定的制品追踪能但有限,与已有动追踪技术结合可能是更好选择LLM+需求自动追踪展望:大语言模型的技术特性 大模型的本质独特性 计算层面RinardICSE 2024 Keynote 大模型的输出仍是依照用户查询/提示,基于数据训练得到的概率模型的采样 这使得用户可以反复提示大模型并从返回的多个结果中挑选出符合需要的 大模型的本质独
31、特性 产品层面ChintalaICSE 2024 Keynote 可视作一种“柔性”数据库查询,用户可通过持续交互逐步确定正确答案 被训练过的任何一块文本片段都有可能被涉及并整合到大模型的输出之中 由此带来的问题 难以避免的“幻觉”问题 大模型的通用性和灵活交互能力本质上基于概率模型所共有的反复多次采样,而这个过程本质是不确定的 大模型的优质答案依赖于是否在训练中“亲眼见过”相关数据,否则会不可避免的出现“幻觉”与“编造”LLM+需求自动追踪展望:如何更好地与大模型“共舞”首先接受大模型的“不确定性”因为这同时是大模型能力的“源泉”从基于控制的系统中学习LLM(AI)系统设计 融合多种输入源以
32、相互印证 中长期目标:在海量高质量项目数据上训练专用大模型 结构化模型输出以方便快速展开分析 显式引入业务相关的领域模型与奖励模型 LLM-RAG 人在循环中不断对系统输出进行反馈 引入团队经验与先验知识 LLM-Prompt 系统工具化时需构建适合的交互界面 便于快速评估大模型的输出结果并及时纠错LLM+需求自动追踪:后续工作展望信息检索式学习式传统开发制品软件仓库制品检索式+代码库制品 约5篇学习式+代码库制品 约30余篇检索式+传统制品 约50余篇学习式+传统制品 约5篇LLM RAG利模型的信息归纳能更好地处理和增强本LLM Prompt基于模型的持续交互能融合多种追踪优化策略LLM
33、Finetuning 基于资产化软件开发数据打造交互式、持续演进的对话式追踪具BERT Prompt Template利()语模型强化本分析并融合潜在特征本人代表研究简介PART 04近十五年来自动追踪研究分布与本人工作信息检索式学习式传统开发制品软件仓库制品检索式+代码库制品 约5篇学习式+代码库制品 约30余篇检索式+传统制品 约50余篇学习式+传统制品 约5篇检索式法增强策略学习式法优化跨语动追踪基于代码依赖分析的检索式方法增强:CLUSTEREMSE 2022UC15UC38UC4UC9Code Dependency需求分布User FeedbackCode Elements仅需少量用
34、户判断(与代码依赖分析结合)即可有效改善检索式方法精度基于共识词对的检索式方法增强:TAROTASE 2022&TRIADICSE 2024参照社交文本主题建模中的词对增强策略,引入软件追踪 共识词对 探索跨越制品开发的共识语义使用词性分析和代码标识符分析来抽取共识词对,例如图中的(send,email)和(fake,email)利用共识词对扩充制品文本并构建检索优化策略,在9个系统上帮助提升4.8%至21.8%MAP基于TAROT的共识词对,在多制品中推导语义传递关系以优化检索充分利用已有制品与其文本,在五个实验系统上平均优于四个基线方法10%MAPTraceAbility Recovery
35、 by cOsensual biTerms(TAROT)Traceability Recovery by bIterm-enhAnced Deduction of transitive links(TRIAD)基于共识词对的跨语言(中英)需求追踪:AVIATEASE 2024 软件开发全球化导致软件制品文本出现多语言混用现象,阻碍自动追踪GitHub上12.7%的commit logs由非英文书写,最常用为中文28.6%,其余依次为西葡法日等国内公司实践中更常见(代码仍以英文为主)可通过翻译统一语言,但会出现多种翻译版本(翻译变体),削弱自动追踪技术效果在多翻译变体上抽取共识词对增强文本并设计
36、优化策略,在17个跨语言系统上AP提升31.4%,MAP提升11.2%英汉项目14个,来自阿里、腾讯、网易、小米、百度等公司开源项目英韩、英日、英德项目各一(提升高于英汉)基于增强预处理的学习式方法:SPLINTFSE 2022Semi-Supervised Pre-processing for LearnINg-based Traceability(SPLINT)Ppseudo-labels1.learn initial model2.predict pseudo labels3.select pseudo labelsinitial modelinitial modelSelection
37、StrategySSL process4.add pseudo labels 基于已知的Issue-Commit对进行自动化追踪 提交Commit时往往会标记所解决的Issue 标签严重不平衡,数据稀疏,影响分类效果 基于类别平衡和自学习技术预处理数据的分类优化 6个开源系统上平均提升0.76%AUC 10个工业系统上平均提升8.39%AUCClass-balancing and self-training(CBST)selection process探索中工作:BERT在基于制品文本的自动追踪潜力标:1.对学习式追踪的Issue-Commit对进语义聚合2.基于历史Issue的Compone
38、nt标签构建分类模型思路:1.考虑软件开发过程特性(员协作&逐步演化)2.强化模型语义能使用使用BERTBERT预训练语言模型预训练语言模型使用提示学习克服语义鸿沟使用提示学习克服语义鸿沟3.设计个能够增量分类issue新标签的推荐法效果:1.提升任务经典指标Recall1 3.2%-215.7%2.消融实验说明法各部分均对效果起正向作经验分享:1.BERT类“”语模型LLM更容易拟合给定数据2.BERT提示模板可有效引额外知识,实践中可选择通过LLM补充重要上下,再利BERT拟合引基于BERT的提示学习,并在提示模板中融合软件开发过程特性.This issue is created by i
39、n.This is component.科研情况简介右侧为论文和项目图例,加粗论文为一作/通讯 向软件协作络的功能追踪与开发管理标:显著提升常软件开标:显著提升常软件开发的效率与质量,有效持发的效率与质量,有效持数智化时代数智化时代BizDevOpsBizDevOps实践实践开发状态管理系统功能追踪动化软件可追踪核情绪分析与软件开发核检索式追踪线索成与优化版本注释与多版本代码diff动追踪学习式追踪线索成与维护基于功能关联的Issue分类与聚合基于软件程本独特性的情绪分析优化基于深度学习和可解释框架的细粒度情绪诱因分析基于情绪分析的软件开发状态感知开发协作络分析与代码评审者推荐Internet
40、ware2022开源防投毒社区可疑活动分析研发外包产出评估技术GitHub 2.84亿+公开软件仓库Stack Overflow 5800万+提问&回答FSE2025拟投DevOps国家标准起草融科技、智能电合作vivo软件产品作坊设数智化转型课程共建CCF-ACCF-BCCF-C企业技术合作ICSM2012JSEP2015SANER2017ICPC2019EMSE2022ASE2022ICSE2024ASE2024FSE2022即将/已投稿ICSE2025已投ICPC2021ECAI2024已投ICSE2025已投ICSE2022COMPSAC2022总结与展望PART 05个人观点总结(f
41、or“Take away”)需求可追踪性指在软件系统中将各类制品基于系统功能建立并维护显式语义关联 普通开发者快速融入团队,有效提升开发效率与质量的重要途径(容易忽略)项目管理者治理开发过程,实现开发数据资产化的必经之路 以需求追踪为核心的开发数据资产化是大模型赋能软件开发的关键 需求可追踪性能够在细粒度的源码层面支持大量软件开发相关任务 面向需求追踪实现开发数据资产化是在软件开发中充分利用LLM能力的重要前提 需求自动追踪长期以来是软件工程领域研究与实践的热点与难点 当前主流追踪技术为面向传统制品文本的信息检索和面向代码库文本的机器学习 在高质量数据有限的前提下可以重点关注大模型RAG和Prompt与传统分析技术的结合THANKS