《绿盟:2023SecXOps安全智能分析技术白皮书(84页).pdf》由会员分享,可在线阅读,更多相关《绿盟:2023SecXOps安全智能分析技术白皮书(84页).pdf(84页珍藏版)》请在三个皮匠报告文库上搜索。
1、智 能 基 座,开 启 安 全 分 析 新 时 代SecXOps安全智能分析技术白皮书2023CONTENTSSecXOps 安全智能分析技术白皮书2关于绿盟科技绿盟科技集团股份有限公司(以下简称绿盟科技),成立于 2000年 4 月,总部位于北京。公司于 2014 年 1 月 29 日在深圳证券交易所创业板上市,证券代码:300369。绿盟科技在国内设有50余个分支机构,为政府、金融、运营商、能源、交通、科教文卫等行业用户与各类型企业用户,提供全线网络安全产品、全方位安全解决方案和体系化安全运营服务。公司在美国硅谷、日本东京、英国伦敦、新加坡及巴西圣保罗设立海外子公司和办事处,深入开展全球业
2、务,打造全球网络安全行业的中国品牌。版权声明为避免合作伙伴及客户数据泄露,所有数据在进行分析前都已经 过匿名化处理,不会在中间环节出现泄露,任何与客户有关的具体信息,均不会出现在本报告中。CONTENTS执行摘要0011安全分析的发展背景和趋势0032安全智能分析的挑战0062.1数据治理0072.2模型开发0082.3模型交付0092.4模型运营0102.5AI 工程化0103SecXOps技术体系0123.1概念内涵0133.2技术优势0133.3核心能力0144SecXOps关键技术0184.1安全数据资产统一管理0194.2安全分析模型自动化调优0264.3安全分析模型核心服务部署03
3、34.4安全分析工作流定制0384.5安全分析开发环境一键部署0414.6模型资源动态调度管理0475SecXOps 典型应用场景0515.1加密流量检测的数据闭环0525.2Web 安全分析模型的持续优化0565.3工控协议识别算法自动化调参0605.4Webshell 安全检测的增量开发0665.5安全告警日志的工作流服务0686SecXOps 技术发展趋势0727总结075参考文献077001执行摘要执行摘要随着网络空间的攻击面的延伸和拓展,网络空间攻防双方信息不对称的现象愈发明显。伴随着攻防对抗态势的升级,自动化技术、智能化技术与安全分析技术融合的安全智能分析技术已成为网络安全技术发展
4、的必然趋势之一。SecXOps 即 XOps for Security,以 XOps 与安全场景的融合为基础,由安全数据资产高质可信、安全模型全生命周期管理、安全模型高精度定制、安全模型自动化运营、AI 工程化持续保障五大核心技术能力组成,在保证安全性的同时,减少技术和流程的重复,实现网络安全分析自动化、智能化进阶,是未来应对网络空间高级、持续、复杂威胁与风险不可或缺的关键技术之一。绿盟科技推出 SecXOps 安全智能分析技术白皮书智能基座,开启安全分析新时代,旨在对 SecXOps 概念内涵、技术优势、核心能力、关键技术和应用实践进行全面地总结与介绍,期望为读者带来全新的技术思考,助力网络
5、安全智能分析实现自动化、智能化进阶。本技术白皮书的主要观点如下:智能分析是网络安全分析的必然趋势:随着网络空间攻防对抗态势不断升级演化,数字化时代的特征倒逼网络安全分析突破依赖安全专家的传统“人工”阶段,安全智能分析已成为网络安全风险治理与防控的必备条件之一。网络安全实战场景是安全分析应用的“试金石”:安全分析模型从实验室研究走进网络安全实战化的场景,走进常态化的日常安全监测中,面临着诸多挑战,只有以实战检测的方式来验证安全分析模型的价值,才能有效地促进安全分析能力的提升。SecXOps 安全智能分析技术白皮书002SecXOps 成为提升安全分析自动化和智能化水平的关键:SecXOps将XO
6、ps实践应用到网络安全分析中,以支撑安全数据治理,安全模型训练、管理和监控,为网络安全的数据分析人员、ML 工程团队、应用开发团队以及安全运营团队的协作搭建安全、兼容和经济高效的平台,从而实现基于 AI 安全模型的持续交付,完成网络安全分析技术与大数据和人工智能技术的深度协同融合,全面提升安全分析的自动化和智能化水平。促进 SecXOps 生态建设,共同推动网络安全分析智能化:SecXOps 技术的研究和攻防场景应用实践仍然具备较大的上升空间,在理论方法、标准制定和模型运营等方面需要进一步的研究与探索,需要技术生态的构建,营造网络安全分析智能化大时代技术氛围。01安全分析的发展背景和趋势Sec
7、XOps 安全智能分析技术白皮书004近年来,互联网、大数据和人工智能等技术都得到了飞速的发展,网络攻击的方法也越来越复杂,过去广泛、漫无目的的攻击威胁,在数年内迅速地转化为有目标、有组织、长期潜伏的多阶段组合式高级可持续威胁(Advanced Persistent Threat,APT)攻击。APT 攻击有着复杂度高、对抗性强、特征隐蔽等特点,通常由有国家背景的相关攻击组织发起,实施窃取国家机密、重要企业的有价值商业信息、破坏网络基础设施等活动,具有强烈的政治和经济目的,严重影响网络空间稳定运行,造成国民经济损失,威胁国家安全。随着 APT 攻击等高隐蔽未知威胁的出现和演进,传统安全分析技术
8、难以满足 APT 攻击检测的要求,亟需融合多手段的检测技术来应对种类日益多样化的安全威胁攻击。在安全威胁具有更强的杀伤力与隐蔽性的形势下,结合大数据和人工智能技术的安全智能分析成为新一代安全能力的关键,是网络空间安全的重要发展方向之一。基础级领先级卓越级基于专家经验与知识构建的知识库和预置的自动化匹配机制、流程,实现典型安全分析。基于机器学习和深度学习等技术,针对不同数据构建安全模型,从大规模数据中完成识别、检测和分类等任务。借助大数据和人工智能技术完成分析能力自适应的调整,智能地洞悉信息与网络安全的态势。图 1网络安全分析发展阶段由于 APT 攻击等网络威胁利用大数据分析、自动化工具等先进技
9、术来提升恶意攻击的效率和隐蔽性,倒逼网络安全分析突破依赖安全专家的传统“人工”阶段,进入安全智能分析阶段。安全智能分析运用人工智能技术从安全大数据中进行威胁检测分析,直接或间接地提高安全分析效率,在实际攻防实战中充当智能化助手的角色,帮安全分析员更加快速地定位威胁攻击,提升安全分析的自动化、智能化水平。回顾网络安全分析发展历程,可以将安全分析技术发展大致划分为三个阶段,包括基础级、领先级、卓越级,如图 1 所示,以下分别进行简要介绍。005安全分析的发展背景和趋势基于专家经验与知识构建的知识库和预置的自动化匹配机制、流程,实现典型安全分析。基于机器学习和深度学习等技术,针对不同数据构建安全模型
10、,从大规模数据中完成识别、检测和分类等任务。借助大数据和人工智能技术完成分析能力自适应的调整,智能地洞悉信息与网络安全的态势。图 1网络安全分析发展阶段由于 APT 攻击等网络威胁利用大数据分析、自动化工具等先进技术来提升恶意攻击的效率和隐蔽性,倒逼网络安全分析突破依赖安全专家的传统“人工”阶段,进入安全智能分析阶段。安全智能分析运用人工智能技术从安全大数据中进行威胁检测分析,直接或间接地提高安全分析效率,在实际攻防实战中充当智能化助手的角色,帮安全分析员更加快速地定位威胁攻击,提升安全分析的自动化、智能化水平。回顾网络安全分析发展历程,可以将安全分析技术发展大致划分为三个阶段,包括基础级、领
11、先级、卓越级,如图 1 所示,以下分别进行简要介绍。决策智能基础级基础级的安全分析技术基于专家经验与知识构建的知识库和预置的自动化匹配机制与流程,实现典型安全分析,利用安全专家的知识和解决问题的方法来分析安全数据。该阶段面向不同的应用场景,需要专家编写指定的检测规则,以列表结构、树结构、图结构简单组织的规则逻辑结构,分析场景下的攻击行为。然而,随着攻防技术的快速迭代和升级,攻防场景与流程的细化,此类分析方法逻辑的完备性在大数据场景下迎来关键挑战,针对攻击的误报率、漏报率和整体准确性性能衰减很快,难以有效自适应演化,过度依赖专家资源,可维护性低,能够支撑分析的场景愈发受限。领先级领先级的安全分析
12、技术面向不同的网络安全数据,包括安全环境数据(资产、资产脆弱性、文件信息、用户信息),行为数据(网络侧检测告警、终端侧检测告警、文件分析日志、应用日志、蜜罐日志、沙箱日志),情报数据(各类外部威胁情报)以及安全知识数据(ATT&CK)等,基于机器学习和深度学习等技术,针对不同数据构建安全模型,从大规模数据中完成识别、检测和分类等任务。虽然在诸多网络安全分析的场景下基于机器学习和深度学习等安全模型取得了重要的突破,但是随着数据的变动,传统的构建安全模型分析的方法无法有效地完成模型运营,导致在面对 APT 等高级复杂攻击技战术分析时,安全模型分析的结果仍需要深度的专家参与的研判与关联分析来判定安全
13、分析的业务价值,限制了安全分析自动化、智能化水平的提升。卓越级卓越级安全分析借助大数据和人工智能技术完成分析能力自适应的调整,能够更加智能地洞悉信息与网络安全的态势,更加主动、弹性地去分析新型复杂的威胁和未知多变的风险。自适应安全分析采用安全分析工程化的最佳实践提升安全分析的自动化和智能化水平,在确保可靠性、可用性和可重复性的前提下,减少技术和流程的重复,实现安全分析能力的持续交付,发挥安全分析技术在安全领域的巨大潜在价值,推进网络安全智能不断走向成熟,是分析网络空间高级、持续、复杂威胁与风险不可或缺的技术基础。02安全智能 分析的挑战007安全智能分析的挑战随着各个国家的重视和布局,大数据技
14、术和人工智能技术发展迅速,相关自动化与智能化的识别和处理能力、数据分析能力逐渐与网络安全技术进行了深度协同,对网络安全的技术、方法、应用产生了重要影响,促进了网络安全技术的变革性的进步1。可以预见的是安全数据采集和安全智能数据分析技术的成熟将会大幅提升网络安全威胁检测、网络安全风险评估等关键安全防御环节的效率,大幅减少对网络安全专家的依赖,有效地降低企业、组织乃至国家级关键信息基础设施、数据资产的整体安全风险2。因此,安全智能分析能力的提升已经成为安全能力落地、发挥网络安全防御有效性和对抗 APT 等高级威胁最直接、最关键的环节之一。面对日趋白热化、持续化的网络攻防对抗环境,安全智能分析也在多
15、个方面面临着诸多挑战。2.1数据治理企业数字化转型浪潮的来临,多源异构数据的爆发式增长,使数据治理得到了企业的普遍关注和重视。大规模数据蕴藏的巨大潜在价值吸引着攻击者对集中存储的数据进行窃取、对海量数据的管理是企业亟待解决的一项艰巨任务。数据治理旨在解决数据在生产、管理和使用中面临的各种问题。从数据源汇入开始,在数据清洗、数据存储、数据分析、数据服务等数据生命周期涉及的所有环节中,数据治理对企业内部的数据集进行规范和定义,并结合企业自身数据现状,为各个环节提供持续的治理服务3。随着企业数字化程度的提升,数据治理的需求和复杂度也会增加。由于安全领域自身的特点,数据治理面临着以下挑战:数据采集:网
16、络安全领域数据壁垒问题严重,安全数据作为敏感数据,往往分布在各个数据持有者手中,数据采集缺乏可访问性和采集渠道,导致采集的安全数据集不完整、不可靠,不足以代表安全问题的真实数据分布,数据多样性的匮乏和完整性的不足会影响到后续的数据挖掘、数据分析等数据操作的质量。数据标签:数据标签化旨在为安全数据贴上精准的标签,安全分析任务所需的真实标签不准确、不稳定或错误,将影响后续安全分析模型的整体性能,反之数据标签越丰富,越准确,后续的安全分析依据就越多,决策也越准确。安全数据标签化深度依赖企业在研究中的积累和专家知识,海量的攻击样本、复杂的攻击类型、多源异构的数据都为数据标签化带来难以回避的挑战。数据规
17、模:安全分析需要大规模、多维度的安全数据作为基础,但处理海量数据也给安全分析带来多方面挑战,如依赖爆炸、海量告警场景下的告警疲劳等问题,以及海SecXOps 安全智能分析技术白皮书008量数据在数据采集、传输和存储阶段为系统带来的压力,都会降低整个安全数据治理流程的效率。动态治理:安全数据包含动态产生的终端侧、网络侧、沙箱侧、蜜罐侧的告警日志,以及威胁情报、漏洞、知识库、IT 资产等数据资产,对这些安全数据的动态治理是实现可靠数据分析的关键。为了在复杂多变的网络空间环境中制定出动态自适应的分析策略,安全数据治理对动态治理提出更高的要求。因此,安全数据的治理需要对安全数据进行持续采集、标注、存储
18、以及动态治理,基于大数据的治理技术确保安全数据的质量,在提高数据质量的同时减少数据分析的周期。2.2模型开发近年来,随着硬件计算能力的日益强大与数据量的井喷式增长,深度学习的应用也是与日俱增。尽管经过了数十年的发展,深度学习的实用性和普适性已经有了很大的提升,例如,使用计算机视觉领域的卷积神经网络也可以对文本进行处理,并且得到比较好的效果。然而在很多场景下,不同领域的模型针对某一特定场景的任务在准确率、查准率、查全率和时间复杂度等很多指标上都有明显的鸿沟,无法将其他领域的模型直接应用到一个新的领域。数字时代的背景下,数据和智能驱动的安全对抗,技术平台的自动化、智能化水平,攻击面的拓宽,导致网络
19、安全分析所需采集的数据种类多、数据规模异常庞大。因此,从防御角度来看,安全分析模型需要快速检测分析多源异构安全数据,辅助安全团队进行分析。目前,安全模型构建面临着以下挑战:特征提取困难:人工提取面向网络安全领域的特征较为复杂,现阶段机器无法自动化高效地识别有效的特征,存在一些与安全问题无关但是能够在分类任务指标上表现良好的特征也会导致安全模型去拟合这些特征而不是去解决安全问题。例如,在网络入侵检测场景中,数据集中绝大多数攻击流量来自于一个特定网段,导致模型不学习攻击模式,而是学习特定 IP 段来检测攻击,导致了 IP 段与网络入侵的虚假相关4。泛化能力差:在网络安全领域,不同的安全场景之间的差
20、距较大,相关模型在学术界并没有像CV 或 NLP 领域那样形成一个稳定的思路或流派。例如,针对加密流量的分类,从009安全智能分析的挑战CNN、RNN 再到一些集成算法,研究者们进行了很多尝试,仍然没有算法能够脱颖而出。可解释性低:基于深度学习等复杂不可解释的黑盒模型,以及低交互甚至无交互的人机交互流程设计,是各种模型在安全领域应用的重要阻碍。例如,在 web 攻击识别方面,需要分析的数据是一段形如程序命令的文本,并不同于自然语言有明显的语义上的连贯性,导致 NLP 方法在面对预测结果时也无法自圆其说,模型的分析结果没有较强的可解释性,并且一旦如果模型不可解释,就意味着该模型本身是不可知、不安
21、全的,当受到投毒攻击、对抗样本攻击时很难进行快速处理。因此,只有确保信息可靠性、明晰模型输入输出的因果关系,模型的预测结果才能令人信服,才能投入使用5。面对日新月异的攻击手段时,安全分析模型无法对诸如零日漏洞、未知流量入侵等未知攻击进行准确检测,动态变化的网络数据进一步加大了安全分析模型增量更新的难度。2.3模型交付对于一个网络安全领域的任务,机器学习或深度学习算法的选择是一件耗时很长的任务,模型选定后的调优过程也需要大量的时间成本。目前大多学术论文中的研究不会涉及算法在真实场景交付的问题。由于算法模型的分类结果依赖收集到和标定好的数据集合,在实际应用场景下,数据分布的变化、数据复杂度的提升等
22、因素可能会导致大部分实验室中表现良好的模型面临失效的困境。真实场景数据大部分情况下无法直接获取用于模型训练,因此在模型训练阶段不能和本地环境中的数据做大量的融合适配,无法基于本地环境的特性去标定整个模型和检测点的指标,通常训练阶段会采用合成数据来扩展数据集或者使用迁移学习的方法来提升模型的普适性等,但是在真实的环境中还是会存在各种问题。例如,人工智能算法在加密流量领域的应用,当算法模型在实验室封闭数据集上得到高检测率和低误报率的效果后,在真实场景下仍然会因为环境流量的复杂导致误报率较高,并且,在此场景下对于大部分现场安服和分析人员来说,他们并不具备对加密流量的验证能力,即验证一条加密流量所需要
23、的成本非常高,导致用户使用相关安全分析模型的意愿降低。因此,网络安全领域一方面需要提高安全分析模型的开发效率和上线速率,另一方面也需要保证安全分析模型离开实验室环境到真实环境中后依旧是有效的。安全分析模型在上线之前应该部署于多个真实环境的实验中以发现实验室环境和单一真实环境中发现不了的问SecXOps 安全智能分析技术白皮书010题。此外,在安全分析模型交付期间,需要考虑真实场景中数据的时间特性、空间特性、运行时间和存储限制,以及如何与其他流程完成工程化的结合以实现业务目标。例如,在加密流量分析模型的实际应用中,需要结合加密流量实际场景研判的角度,将安全分析模型作为整个加密流量判别的一个环节,
24、通过整个流程中其他模型关联的联合验证,以宏观的角度完成加密流量的研判。2.4模型运营如今,企业组织的数字化转型带来了海量的数据,这些数据倾向于云存储而不是物理存储,这一趋势使得安全分析模型需要处理的场景也在变化。例如,为了保护在家和移动设备上的办公安全,需要新的身份管理系统去保障多源的数据和代码的安全性,机器学习等技术被引入来管理和分析安全数据,以自动化地识别威胁降低风险。随着安全分析模型在网络安全领域的应用越来越多,网络攻击手段越来越丰富,安全分析模型检测威胁难度不断增大,导致很多安全分析模型无法投入真实环境。安全分析模型一旦投入脱离单一的实验室环境,就会面临着快速迭代的真实攻击场景、持续化
25、的网络攻防对抗环境,从而导致模型逐渐失效。安全产品的安全分析模型检测效果随着时间推移而效果下降的问题是不可一次性解决的,需要持续进行运营。以 web 攻击检测为例,对于传统的基于规则检测的模型,安全研究员对于运营过程中采集到的数据可以直接进行分析,同时对规则进行修改,更新模型。但当告警数量激增的情况下,这种传统的模型运营模式难免显得力不从心。相比之下,对于机器学习和深度学习算法,运营流程只会更加复杂。运营人员将漏报误报数据收集好后需要与算法工程师进行对接,针对不同的场景、不同的数据、不同的算法需要采用不同的数据处理方式,模型更新完成后又需要与产品开发人员对接,导致运营、研究、开发多个部门之间耦
26、合程度过高,造成人力和时间的浪费。因此,网络安全领域安全分析模型的应用需要打破多个部门之间的协作壁垒,建立一个良好的团队之间协作的通道,通过有效的安全分析模型的运营,在生产环境中基于模型的有效性和效率等指标(效率指标可包括目前硬件资源利用率和延迟等)持续地监控安全分析模型,以支撑模型可审计、可追溯,完成安全分析模型有效的运营。2.5AI 工程化网络安全分析模型应用到真实场景需要考虑诸多因素,包括真实场景中算法效果的局限性,上下游数据是否具备可用性,算力是否能够支撑安全分析算法的运行实现,以及性能的消耗等,因此,需要在基于机器学习和深度学习模型在网络安全应用场景中面向数据、011安全智能分析的挑
27、战算法、模型等要素建立完备的工具体系、标准化研发和管理体系。为了实现网络安全领域基于 AI 的模型的高效交付,需要利用跨数据、机器学习、人工智能和应用程序开发管道的多种最佳实践,实现 AI 工程化,支持将 AI 交付模块化、编排、发现和自治作为业务框架的组成部分。目前,在网络安全分析的过程中,当遇到跨多个环境部署应用 AI 分析模型时,传统的虚拟机技术无法有效应对所需要的环境资源配置。在多个系统环境和框架中无缝移动和运行,并保持结果的一致性,才可以使 AI 应用的迁移更加简洁。此外,AI 工程需要用到GPU,CPU 等诸多服务器资源,只有高效且灵活的资源动态调度方案,才可以保证在不同主机、集群
28、之间,实现有效地调度,维护 AI 系统的稳定性,以适用于网络安全海量数据、众多业务中快速响应安全分析的请求,实现有效的网络安全威胁分析。因此,网络安全智能分析的实现中通过环境容器化、环境迁移、模型资源动态调度管理等技术,实现 AI 工程化,以在网络安全分析中 AI 系统涉及的所有阶段提供持续集成和持续交付,支持和保障系统的可重用性、结果可再现性、代码可回滚性、数据可沿袭性和环境安全。03SecXOps 技术体系013SecXOps 技术体系本章将介绍 SecXOps 技术的核心内涵、技术优势与技术框架。3.1概念内涵运维(Ops)发展至今在企业中的重要性越来越高,随着各行各业数字化规模越来越大
29、,组件监控粒度越来越细,不断有新技术和组件被引入运维体系。运维体系不断向着多元化方向发展,XOps 即其他技术与 Ops 的融合,随着不同的 Ops 发展,XOps 已成为定义DevOps、DataOps、MLOps、ModelOps、Platform Ops for AI 等组合的总称。Gartner 指出XOps 的目标是使用 DevOps 的最佳实践实现效率和规模经济,在确保可靠性、可用性和可重复性的前提下,减少技术和流程的重复,实现进阶自动化6。总的来说,XOps 技术促进企业组织通过数据和分析的运营技术赋能业务,推动提升业务价值。SecXOps 即 XOps for security
30、,以 XOps 与安全场景的融合为基础,由安全数据资产高质可信、安全模型全生命周期管理、安全模型高精度定制、安全模型自动化运营、AI 工程化持续保障五大核心技术能力组成,在保证安全性的同时,减少技术和流程的重复,实现网络安全分析自动化、智能化进阶,是未来应对网络空间高级、持续、复杂威胁与风险不可或缺的关键技术之一。3.2技术优势SecXOps 将 XOps 实践扩展到网络安全领域,从安全数据治理、ML 模型管理、AI 模型管理和底层基础设施建设等各个阶段建立强大的 DevOps 实践,以支撑安全数据治理与安全模型训练、管理和监控,发挥 Ops 技术在安全领域的巨大潜在价值,为网络安全的数据分析
31、人员、ML工程团队、应用开发团队和安全运营团队的协作搭建安全、兼容和经济高效的平台,从而实现基于 AI 的安全系统的持续交付。其技术优势如下图所示:高质可信安全数据共享安全分析模型工程化安全分析模型应用服务化图 2SecXOps 技术优势高质可信安全数据共享SecXOps 在安全数据分析过程中,通过数据治理的方案,管理不规则的数据管道,完善数据采集、数据工程、数据分析的流程,实现安全数据资产的统一化管理,包含网络流量数据、恶意样本行为数据、威胁情报数据等,协助安全数据研究,打破安全SecXOps 安全智能分析技术白皮书014数据壁垒难题,优化数据处理的各个环节的协作,解决数据错误和数据缺失的问
32、题,提升安全数据资产的质量和数据的处理效率,实现自动化的安全数据交付,达到安全数据迭代交付,不断提升安全数据的价值。安全分析模型工程化SecXOps 通过自动化、构建模块的重复使用和业务流程的集成,可持续地操作网络安全领域的ML模型和AI模型等模块,实现网络安全应用相关的AI分析等模块的扩展。基于 XOps 技术中高性能模型敏捷交付方法,解决安全数据依赖、自动化训练、优化复杂配置的问题,协助网络安全领域模型的研究,完成安全分析模型开发、交付的自动化,做到安全模型全生命周期管理,简化端到端 ML 工作流程,加快安全分析模型从研究到工程部署的速度。同时,利用集成系统的质量指标来追踪 ML 和 AI
33、 模型等模块性能指标,支撑 ML 和 AI 模型等模块的再训练,实现大量网络安全领域模型及时的反馈闭环,有效地保障模型的再现性、可追溯性、完整性和可整合性。安全分析模型应用服务化SecXOps 为网络安全领域构建自适应的系统,通过可视化、可编排的管理平台,构建安全模型资产管理和多元模型开放服务体系,实现安全模型一体化运营。在安全相关应用从开发到落地的整个生命周期中,观测和预测系统中安全模型的变化,确保安全模型的应用效果,克服安全模型高精度定制的难题,提高模型应对威胁和攻击的能力,为意外的网络安全环境变化做好准备,根据不同的运维目标、场景,结合环境和专家的反馈,完成 AI 安全分析模型的应用服务
34、化,实现规模化的生产与利用,从而减少网络安全领域生产过程维护模型所需要的成本。SecXOps 从数据采集、模型开发、模型部署,模型管理等方面为网络安全分析提供必要的透明度和可见性,以支撑对网络安全分析模型的有效性进行判别,在模型投入生产前以全局的视角对其结果进行审查,实现从多个维度有效衡量和跟踪网络安全领域 ML 和 AI 模型在其生命周期中业务影响和价值,避免将网络安全模型快速扩展到安全业务落地阶段后对企业造成的损失。未来 SecXOps 技术将成为在安全分析流程中形成机器效率与安全人员经验融合闭环、辅助 AI 模型在安全领域逐渐落地的不可或缺的基础技术。3.3核心能力为了加快安全分析能力更
35、全面、更深入的自动化,SecXOps 的目标在于创建一个集成的用于 Security 的 XOps 实践,提升安全分析的场景覆盖率和运营效率。SecXOps 技术并不015SecXOps 技术体系是 Ops 技术在安全领域的简单加和,SecXOps 技术的实现一方面取决于不同 Ops 技术自身的发展水平,另一方面,更取决于 Ops 技术与安全分析场景在核心目标、体系架构、功能需求、数据模型的各个方面适配。不同于安全运维实践中 Ops 技术与安全领域的单点结合,SecXOps 是面向安全分析的各个环节,进行系统、深入的多维融合技术方案,可以适应安全分析不同阶段、不同任务场景的应用需求,实现安全数
36、据价值的最大化,这对传统 Ops 技术的鲁棒性、可信性、安全性提出了全新的要求。本文将 SecXOps 核心技术能力划分为五部分,包括安全数据资产高质可信、安全模型全生命周期管理、安全模型高精度定制、安全模型自动化运营、AI 工程化持续保障,如下图所示。以下首先分别对各个方面进行简要介绍,后文将进一步展开详细说明。图 3SecXOps 核心技术能力拆解3.3.1安全数据资产高质可信随着全球数字经济的蓬勃发展,各种复杂业务越来越多,高级持续性威胁的出现和演进导致网络安全所要分析的内容急剧增加。传统的安全运营仍然深度依赖安全专家去研判,进行调查取证及分析,涉及的数据包括终端侧、网络侧、沙箱侧、蜜罐
37、侧的告警,系统日志以及威胁情报、知识库、扫描的漏洞等。从数据层面来看,安全数据通常来源分散、语义多样、格式异构,因此,需要针对不同的数据源进行采集、预处理、打标签等工作。以往数据分析人员进行数据处理后仅将数据处理成适用于自己场景下的模型训练的输入,这种低耦合、低交互的方式导致数据的分析通常无法复用。为了应对数据本地化理解、脆弱性和新的数据用SecXOps 安全智能分析技术白皮书016例扩展速度慢等挑战,SecXOps 对安全数据进行有效地管理,包括数据提取、集成、转换和分析。面向网络环境数据、威胁行为数据、威胁情报数据、安全知识库等,引入机器学习和知识图谱等技术,根据攻击行为的特征与多源异构数
38、据的特点对数据进行定义和分类,协调不同工具构建数据处理管道,基于深度学习技术进行实体消歧、实体统一等操作,提取安全数据的描述信息,将多源异构数据转换成可以连接的数据,以灵活的图数据结构将数据管道中不同阶段的数据提供给各个领域的安全专家,使其针对多源异构数据进行高效地协同组织与管理,促进专家知识储备不同的安全人员之间的合作,使得安全数据可以在动态环境中更快更智能地被利用,完成自动化的安全数据交付的设计和管理。3.3.2安全模型全生命周期管理目前各种模型算法在网络安全领域中大多较难落地。因为即使在各种学术论文中,模型的检测率达到了 99.9%,一旦当安全数据为海量级别的时候,会造成大量的误报或者漏
39、报。安全领域的建模仍需要业务人员、数据分析工程师、AI 建模工程师,安全运营研判人员投入大量的精力,在场景中进行持续的反馈、沟通、迭代和优化。各种算法模型在安全领域的落地尚处于初步阶段,大多方法存在泛化能力差、交付效率低,且在真实场景中无法解决实战的问题。随着安全对抗的升级、攻击手段的变化,以及业务需求的变动,当模型在真实网络安全环境中出现性能衰减的时候,SecXOps 基于工程化的实践,自适应调整模型参数来应对复杂多变的网络环境,以取得最佳检测效果,只有可解释、增量更新的安全分析模型,在网络安全领域才是可评估、可实战、可运营的。SecXOps 技术可靠和高效地在生产中完成机器学习模型的发布、
40、激活、监控、管理和更新,实现安全模型全生命周期管理,在机器学习模型整个生命周期中融合模型的开发和管理阶段所需不同专家的能力,打破沟通屏障,确保各种机器学习模型在安全领域的落地。3.3.3安全模型高精度定制就安全场景而言,流量分析、用户实体行为分析、样本分析、威胁关联、自动化响应等安全能力逐渐集成机器学习算法,但是在安全领域每一次针对安全事件的漏判错判都可能会造成无法挽回的损失。为了使 AI 技术在安全运营领域逐渐落地,从而减少安全运营人员的工作量,需要针对安全分析模型进行有效的 AI 模型定制。安全分析模型需要考虑模型的安全性,在真实环境上线前需要对安全分析模型进行攻击,以检测和确保安全分析模
41、型自身的安全性。因此,安全分析需要 AI 以透明、可解释的方式输出其判断和决策,以 AI 的性能弥补人类在数据处理上的低效性、AI 的鲁棒性来适应不同的使用环境,并且保障 AI 自身的安全性。017SecXOps 技术体系SecXOps 设计安全分析模型的定制流程,扩展人工智能在网络安全分析中的应用,协助部署,治理和监控生产环境中的 AI 模型。通过为安全业务、开发和运营团队提供一定程度的透明度,帮助企业最大化和扩展 AI 相关计划,在网络安全检测、溯源、响应等各环节自动化任务中为业务领域专家提供可解释的结果,结合 AI 模型进行推理,丰富安全知识和网络安全领域的应用,完成威胁建模、风险分析、
42、攻击推理,加速安全进入认知智能。3.3.4安全模型自动化运营目前,由于安全分析模型从构建、部署到运营的流程涉及数据分析人员、机器学习模型构建人员以及其他 IT 部门之间的相互配合,复杂的安全分析模型运营和治理流程导致安全分析模型应用举步维艰。在其他领域的动态环境中表现出色的工程化实践能够针对不同的业务问题采用不同类型的模型,确保随着时间的推移模型预测会保持准确,并且遵守所有法规和风险要求,同时为业务领域专家提供了可解释的结果,以及在不完全依赖专家的情况下升级和降级用于推理的 AI 模型的能力。SecXOps 技术构建安全模型自动化运营体系,突破现有的管理流程,实现有效的安全分析模型规模化治理,
43、帮助企业在实际生产环境中有效地部署和应用安全分析模型,确保在企业不断变化的环境中,安全分析模型仍然可以有效地识别和检测威胁风险,满足企业的业务目标。3.3.5AI 工程化持续保障人工智能平台运营7是一种编排和扩展 AI 的方法,用于构建和交付基于 AI 的系统,涉及数据、ML、AI 和应用程序开发管道的多种最佳实践,实现分析、ML 和 AI 模型部署的管理,为基于 AI 的系统创建高效的交付模型。SecXOps 通过人工智能运营平台构建基于人工智能的安全系统,利用模块化和业务编排的底层平台来不断扩展人工智能在安全中的应用,管理端到端的 AI 安全平台,从数据到模型的管道建立一致性,在构建基于人
44、工智能安全系统的各个阶段提供持续集成和持续交付的能力,为业务部门提供自主权,加快人工智能解决方案在网络安全领域的采用和交付。04SecXOps 关键技术019SecXOps 关键技术4.1安全数据资产统一管理DataOps,即 Data 和 Operations 的集成,于 2014 年首次提出。Gartner 将 DataOps定义为“一种协作性的数据管理实践,专注于改进组织内数据管道的通信、集成和自动化”7。DataOps 是一种面向流程的自动化方法,适用于从数据采集到生成数据分析报告的整个数据生命周期,通过创建对数据、数据模型和相关组件的可预测交付和变更管理,实现更快的价值交付。在整个数
45、据生命周期中,DataOps 提供一个所有成员无缝协作的环境,协助数据团队将数据孤岛转变为敏捷、高速、自动化的数据供应链,持续改善和优化整个数据管道,最大限度发挥数据价值。DataOps 在产品开发的各个方面保障数据完整性,旨在提高数据分析质量和缩短数据分析周期,提高企业使用数据的效率,降低使用数据的门槛和成本,让数据为企业带来更多价值。图 4DataOps7SecXOps 安全智能分析技术白皮书0204.1.1数据存储4.1.1.1定义内涵数据存储是指将数据以某种格式记录在计算机内部或外部存储介质上。在本节中主要介绍 SecXOps 中的数据集存储方式。4.1.1.2技术背景传统的数据存储是
46、一个手动的、管理进行驱动的过程,需要专家知识管理数据存储的整个周期,不仅成本昂贵、耗费大量资源,也易受到存储资源复杂性的困扰和限制。随着数据向云上部署进程的推进,传统管理方法使得存储过程和 IT 运营更为困难。DataOps 的问世缓解了上述困境。DataOps 的理念建立在 DevOps 之上,旨在实现敏捷数据存储、分析和管理。眼下很多公司和企业都没有完善的数据管理过程,缺乏版本控制、持续集成等环节,数据的传递流程需要人去沟通,而 DataOps 则是建立了一个完整的数据管道,极大地简化了数据的存储管理流程。一个典型的数据管道包括数据提取、集成、转换和分析阶段。在数据存储阶段,敏捷数据流程往
47、往从单个数据子集和子集的增量价值交付开始,需要软件开发人员、IT 运维人员和数据团队之间进行协作,并尽可能将这个流程自动化。DataOps 以数据作为基础和支撑。然而,对安全领域而言,安全数据资产的合法获取十分困难。安全数据的来源通常是黑客论坛、博客、社交网络、应用程序论坛等,但这些渠道获取的数据存在以下问题:一是数据量往往不足以支撑项目的运行,二是数据质量无法保障,三是数据集中是否存在投毒数据、是否携带后门触发器等风险尚未可知。开发者也可以通过爬虫程序获取安全数据,但许多企业已经具备反爬虫意识,在网页代码中嵌入了反爬虫策略,同时也为数据收集者带来了法律风险。总之,安全数据的收集在获取渠道、获
48、取方式上都存在着较高难度。4.1.1.3思路方案在众多开源的自动化机器学习平台中,数据的存储方式各有差异。例如 H2O,它能够从HDFS、S3、NoSQL、SQL 中读取数据或写入数据,能从本地和分布式文件系统接收 CSV 格式的数据,支持写代码对数据进行处理。Databricks 则与 Spark 和 Apache 的数据湖相结合,为批处理或流式提取、转换和加载提供了一个简单的接口。021SecXOps 关键技术而在 SecXOps 平台上,我们允许用户创建多个数据集,同时一个数据集可以拥有多个版本,在每一个版本里可以存放大量的数据。一个数据集版本内的全部数据存放在一个Kubernetes
49、的 PVC 当中。PVC 是 Kubernetes 中的一个概念,全称是持久卷申领,表达了用户对存储的需求。PV又叫持久卷,是集群中的一块存储,可以由集群管理员预先制备,也可以通过使用存储类(storage class)来动态制备。PVC 的申领会耗费 PV 资源,SecXOps 平台上部署了 NFS 的存储服务作为一个存储类,允许 Kubernetes 在创建 PVC 时自动创建一个 PV。当用户想要访问数据集时,平台会根据用户的选择,创建一个 ReplicaSet。ReplicaSet是 Kubernetes 中的一种 Pod 控制器,主要作用是能够保证一定数量的 Pod 能够正常运行。R
50、eplicaSet 会持续监听这些 Pod 的运行状态,一旦 Pod 发生故障,就会重启或重建。由于数据集的查看和在线编辑对性能需求并不会很高,因此 ReplicaSet 下创建一个 Pod 即可。Pod内包含一个用户容器,将数据文件所在的 PVC 挂载到该容器上,供用户上传、下载或在线编辑数据文件。SecXOps 支持用户选择数据集版本的打开方式,平台上集成了 jupyterlab,允许用户能够编写脚本对数据集进行批量化的在线修改,同时还集成了 filebrowser,允许用户能够快速地批量上传和下载文件。SecXOps 不仅支持用户从本地上传数据文件,从用户个人或企业内部配置的数据管理服务
51、(如 LakeFS 等)中批量导入数据文件,从公有数据管理服务中批量导入数据文件,还支持用户自定义部署数据采集服务(例如一些流量采集等服务),自动化生成数据集,全面打通数据获取通道,让安全数据的来源更加广泛。4.1.2数据预处理4.1.2.1定义内涵用户从多种渠道收集的数据可能包含噪音,或是存在不一致、不完整等问题,无法直接进行训练。为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理。数据预处理是指在数据分析之前,对数据进行的清洗、筛选、转换、特征选择和提取等一系列必要处理操作的过程。4.1.2.2技术背景数据预处理的常见方法有数据清洗、数据转换、特征选择、数据降噪和数据增强。数据
52、清洗通常是指对收集得到的数据集通过丢弃重复数据、补全缺失数据、异常值处理SecXOps 安全智能分析技术白皮书022等方式,清洗掉数据集里的脏数据,完成清洗过程。数据清洗旨在提高数据质量,数据清洗的效果会直接影响到后续数据分析、模型预测的效率和准确率。数据转换是将数据从一种形式转变为另一种形式的数据预处理方法。由于数据源的多样性、数据的异构性、数据分析的要求等各种原因,在进行数据集成和管理之前,需要对数据进行转换。数据转换根据需求对数据进行类型转换、语义转换、粒度转换、离散化、数据压缩等操作,转换方式有平滑处理、泛化处理、合计处理、规格化处理等。特征选择旨在筛选出给定数据集中与当前机器学习任务
53、有关的特征。复杂数据中存在大量特征,并非所有特征对模型任务都是有用的,去除不相关的特征能节省计算和存储开销,降低过拟合风险,提高模型性能。常见的特征选择算法分为过滤法、包裹法和嵌入法,不同的算法根据不同的观察变量和特征评分规则对特征进行筛选。数据降噪对数据集中的噪声进行移除。噪声在实际数据中无法避免,噪声的存在会对模型产生误导。常使用的数据降噪方法有聚类、降维、回归等。数据增强旨在扩充有限的数据,增加训练样本的数量和多样性,进而提高模型的泛化能力。根据在机器学习流程中适用的阶段,数据增强分为离线增强和在线增强,其中离线增强直接对数据集采取增强操作,在线增强在获得批量数据后,对批量数据进行增强。
54、常见的数据增强方案有 AugMix8,CutOut9,MoEx10,MaxUp11,Mixup12,CutMix13等。4.1.2.3思路方案在安全领域的研究中我们发现,很多数据预处理的步骤,在不同的场景下中都可以相互借鉴,甚至可以进行直接复用。例如,对于加密流量相关的数据,当算法工程师获取到一批加密流量的 pcap 包之后,不论他们面临的任务是加密流量的精确识别、异常检测,还是恶意软件的检测,对 pcap 包最原始的数据预处理思想是大同小异的,例如采集流级特征、包级特征等并将其转化成 csv 文件。SecXOps 对在安全领域中一些常见的通用数据预处理方式进行了模块化封装,从简单的数据去重、
55、文件合并、数据清洗,到高级的特征提取,如 pcap文件转 csv 文件,数据降维等,支持用户通过手动设置相关参数,对当前数据进行处理。以 pcap 文件转 csv 文件为例,传统基于机器学习的网络流量分析严重依赖人工,在实践中,获得特征、模型和参数的最优组合通常是一个迭代的过程,这个过程有一些弊端。首先,数据的合适表示和特征选择对于流量分析任务是十分重要的,但即便有专业领域知识,特征工程仍然是一个脆弱且不完善的过程,人工分析时可能会忽略不够明显的或包含复杂关系的023SecXOps 关键技术特征;其次,网络环境复杂多变,流量模式的变化带来特征的失效;最后,对于每一个新的流量检测或分类任务,都需
56、要重新设计新的特征,选择合适的模型,并重新调整参数。为了避免这些问题,本节中展示一种使用 SecXOps 实现的加密流量分析方法。对于许多分类问题,数据表示与模型选择同等重要,所以在应用机器学习方法时,如何对数据进行表示和编码是非常重要的。对于网络流量数据的编码需要满足以下几个要求:(1)完整的表示。该方法的目标不是选择特定的特征,而是一种统一的数据编码,以避免依赖专家知识,所以需要保留包含包头在内的所有数据包信息;(2)固定的大小。许多机器学习模型的输入总是保持相同的大小,所以每个数据包表示都必须是常量大小;(3)固有的规范化。当特征被归一化后,机器学习模型通常会表现得更好,也能减少训练时间
57、并增加模型的稳定性,所以如果数据的初始表示本身就是规范化的,将会非常方便;(4)一致的表示。数据表示的每个位置都应该对应于所有数据包包头的相同部分,也就是说,即使协议和报文长度不同,特定的特征总是在数据包中具有相同的偏移量,对齐后的数据都能让模型基于这样的前提来学习特征表示。图 5网络流量表示方式14如上图所示,网络流量表示的主要方式包括语义表示法和朴素二进制表示法。(1)语义表示法:每个报头都有各自的语义字段,但它不保留具有区分度的可选字段的顺序,同时需要领域专业知识来解析每个协议的语义结构,另外,尽管拥有这些知识,后续还是不可避免地要进行繁琐的特征工程;SecXOps 安全智能分析技术白皮
58、书024(2)朴素二进制表示法:使用数据包的原始位图表示来保持顺序,但是忽略了不同的大小和协议,导致两个数据包的特征向量对同一特征具有不同的含义,这种不对齐可能会在重要特征的地方引入噪声而降低模型性能,同时也因为无法将每一位都映射到语义上而导致结果的不可解释。图 6nPrint 方法14以上两种表示方法都无法满足统一化数据表示的需求,如上图所示,SecXOps 内置的数据预处理模块 nPrint,解决了单一表示方法无法统一化表示数据的问题。首先,它会保证任何数据包都可以被完整表示而不丢失任何信息;然后,使用内部填充确保每个数据包以相同数量的特征表示,并且每个特征具有相同含义,这种在位级上可解释
59、的表示使我们能够更好地理解模型;其次,直接使用数据包的位,区分于某个位被设置为 0,将不存在的包头用-1填充;最后,每个数据包都用相同数量的特征表示,对于给定的网络流量分析任务,将载荷设置为可选的字节数。此外,nPrint 具有模块化和可扩展的特性,不仅可以将其他协议添加到表示中,也可以将一组数据包表示串联起来构建多包的 nPrint 指纹14。经过 nPrint 处理之后,即可将 pcap 包转成 csv 文件,随后可以进行进一步的特征处理或直接进行算法训练。除了上述提到的几种数据处理方式之外,SecXOps 还支持用户将个人编辑的数据预处理模块进行封装并重复使用,实现定制化的数据清洗、数据
60、增强等功能。4.1.3数据共享4.1.3.1定义内涵数据共享是指在多个用户或多个程序之间遵循一定规则共同享用数据,并进行各种操作、运算和分析的一种技术。数据共享包括数据发布、接口、交换等内容。025SecXOps 关键技术4.1.3.2技术背景随着数字经济成为拉动全球经济增长的新引擎,大数据成为经济中重要的生产要素,大数据分析能够推动科学决策、改善用户体验、促进产品的创新。尽管企业掌握了海量数据,但不断增长的数据需求和尚未开发的数据存量之间横亘着共享不足的数据壁垒,数据供给不足、数据共享受阻等因素阻碍着数据要素市场的构建。而大数据的共享能够进一步挖掘数据的潜在价值。数据共享是数字经济发展的重要
61、基础,一方面,数据共享增强了数据供给能力,降低了数据采集成本;另一方面,数据共享是数据利用方式之一,实现了数据的二次开发和重复利用。出于数据共享的重要性和为企业带来的效益,数据共享逐渐成为促进数字经济发展的核心问题,在工业互联网行业的发展方兴未艾。安全场景下,安全数据在面对相关项目需求时显得匮乏,数据开放共享更为必要。当安全数据在使用和流动时才能产生价值,在良好的、安全可控的数据共享体系的保障下,数据共享能够更大限度挖掘安全数据价值。4.1.3.3思路方案SecXOps 的数据中心允许用户在个人数据集臻于完善后进行公开分享,公开后的数据集会在公开数据列表中展示出来,供用户查看详情。下图是目前
62、SecXOps 平台的一部分公开数据。在详情页可以看到数据的基本信息,基本格式,进入到数据集内部可以查看每一个版本及其对应的数据文件。图 7SecXOps 公开数据中心SecXOps 安全智能分析技术白皮书026在创建数据集时,SecXOps 允许用户创建标签,每一份数据集都可以创建多个标签,因此,在用户需要挑选数据集时也可以通过标签搜索的方式进行筛选。同时公开数据库中还支持名称关键字搜索、创建时间排序等常用操作,让用户快速找到合适的数据集。用户选取到合适的数据集及版本后,可以选择复制数据集及对应的版本,此时 SecXOps 会在指定的 namespace 下创建一个新的 PVC,同时创建一个
63、 Job,将原数据版本所在的 PVC 和新数据所在的 PVC 同时挂载到该 Job 所创建的 Pod 上,将原数据从其所在的 PVC 上复制到新的PVC 上。当 Job 运行结束后,相关的动态运行资源会被直接删除,此时新的 PVC 即可被用户访问到。用户访问数据时,平台根据用户的选择创建前几节提到的 ReplicaSet,供用户对数据进行上传、下载、编辑和删除等操作。此时用户对数据的操作不会影响到被复制的原始数据,在确保共享的前提下实现隔离。4.2安全分析模型自动化调优图 8MLOps7027SecXOps 关键技术MLOps(Machine Learning Operations)是一种人工
64、智能的工程实践,是面向机器学习项目的研发运营管理体系。旨在实现 ML 管道的操作、ML 模型的部署和管理标准化,支持ML 模型的发布、激活、监控、性能跟踪、管理、重用、更新、维护和治理。MLOps 位于机器学习、软件工程和数据工程的交叉点,打通了开发团队、运营团队和 AI团队之间的屏障,建立一套标准化、自动化的模型开发、部署、运营流程,帮助企业更快、更有效地开发和完善 ML 模型。MLOps 在机器学习项目整个生命周期的所有阶段中,通常提供数据分析、特征工程、模型调优、模型实验、模型测试、模型训练、模型的快速部署等相关功能和服务。MLOps 通过信息共享促进团队协作沟通,借助自动化、可重复的工
65、作流以及可重用的资产提高效率,减少机器学习项目的风险。4.2.1超参数调优4.2.1.1定义内涵在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,在神经网络训练过程中不会发生改变。通常情况下,在机器学习过程中需要对超参数进行优化,给学习器选择一组最优超参数,以提高学习的性能和效果。4.2.1.2技术背景AI 模型,尤其是深度神经网络,在训练阶段的关键在于选择合适的网络架构、适当的正则化处理和超参数的调优。训练中需要调试的超参数有很多,如学习率、批量大小、动量、正则化、网络层数、隐藏层单元数等等。超参数的值不仅会影响到模型质量,对于确保模型收敛和准确率之间的平衡也至关重要。超参数调优
66、旨在寻找最优的超参数组合,属于非凸优化问题。主流的超参数调优算法有网格搜索、贝叶斯优化、模拟退火算法和遗传算法。网格搜索15,是一种穷举搜索手段,在指定参数范围内,按步长依次调整参数,并使用调整后的参数训练模型,循环遍历每一种可能的参数值,将在验证集上表现最好的解作为最终的超参数值。网格搜索能够找出指定参数范围内的最优参数,但超参数数量的增长会导致计算复杂度的指数级增长。贝叶斯优化16是目前超参数优化领域中的最优框架。贝叶斯优化采用高斯过程,根据已有的参数信息不断更新先验。与网格搜索相比,贝叶斯优化调参迭代次数少,速度更快。SecXOps 安全智能分析技术白皮书028模拟退火算法17是一种启发
67、式算法,其思想源于材料统计学,从高温环境开始,非常缓慢地降温,使粒子在从高能量状态向低能量状态转变的每个温度下都能达到热平衡,直至系统完全冷却,粒子转变为低能状态的晶体。模拟退火算法在搜索和优化超参数的过程中引入了随机因素,在搜索到超参数的局部最优解后,以一定的概率(该概率随着时间逐渐降低)接受比当前解更差的解,反复几次后,超参数的值有一定概率跳出局部最优解,达到全局最优解。遗传算法(Genetic Algorithm,GA)18,也是一种启发式算法。遗传算法将超参数调优问题模拟为生物进化过程,经过选择、交叉、突变后产生下一代的解,逐步淘汰适应度函数值(评价指标)低的解,增加适应度函数值高的解
68、,经过多代进化后,可能会出现适应度函数值很高的个体,也即超参数的最优值。4.2.1.3思路方案自动机器学习是近年来火热的应用和研究方向,各种自动机器学习工具也层出不穷,它们各有优点与局限性。有的聚焦于算法,但不支持分布式训练;有的功能强大,但没有易用的用户界面,学习成本较高;有的只支持特定领域,不提供通用功能;还有的只能在云端使用。SecXOps 集成了 NNI 自动化深度学习包,提供了基于 python 的 SDK,支持多种框架,如 pytorch、tensorflow、scikit-learn、lightGBM 等主流框架和库。同时提供了简单易用的命令行工具和友好的 web 用户界面。在超
69、参数搜索算法上,NNI 不仅提供了 TPE、SMAC、进化算法等优秀算法,还提供了遍历、批处理、随机、Hyperband 等十多种算法。另外,还支持自动终止低效实例,加速学习过程。图 9超参搜索空间定义启动一个超参调优任务首先需要定义搜索的超参空间,如上图所示;然后,在需要调参的网络启动之前,通过 NNI 的接口读取参数并在训练中将精确度等指标传入 NNI;最后进行实验所需的 yaml 文件编写,配置好要使用的调参算法等,即可进行超参数调优。029SecXOps 关键技术图 10实验配置 yaml 文件示例另外,NNI 的超参调优不仅能用于机器学习,对于各类系统、数据库的繁杂参数都可以根据实际
70、场景进行有针对性的调优。使用过程和超参调优非常类似,通过 python 为系统传入不同的参数配置,然后将确定的调优指标(如读写速度,磁盘空间大小等)回调给 NNI 即可。SecXOps 平台允许用户自由使用 NNI 提供的服务进行项目开发,同时在项目运行对应的pod 预留了映射端口供用户访问。当超参数调优服务启动后,容器内的 8888 端口会映射到集群的某个随机端口,如下图所示。图 11Kubernetes 端口映射SecXOps 安全智能分析技术白皮书0304.2.2神经网络架构搜索4.2.2.1定义内涵神经网络架构搜索是为给定数据集自动找到一个或多个架构的任务,这些架构将为给定的数据集生成
71、具有良好结果的模型,其本质是在高维空间的最优参数搜索问题。4.2.2.2技术背景深度学习模型的使用越来越大众化,在很多行业中都是不可或缺的。然而,高效神经网络的实现通常需要架构的知识和大量的时间,在不停的迭代过程中使用知识探索合理的解决方案。神经网络的形式和结构会根据具体需要而有所不同,所以针对不同的任务和不同需求需要设定特定的结构。但是以试错的方式设计这些网络是一项耗时且乏味的任务,不仅需要架构技能还需要专业领域的知识。一般的情况下,专家们会利用他们过去的经验或技术知识来创建和设计神经网络。在大部分行业,都会关注模型效率(这里的效率不仅指执行效率,还包括了开发效率)。为了使神经网络泛化而不过
72、度拟合训练数据集,找到最优的结构是很重要的。但是在生产力比质量更重要的时代,一些行业忽视了他们模型的效率,并且只满足于实现了他们的目标的第一个模型(能用就行)而没有进一步优化模型的性能和效率。寻找合适的网络架构不仅需要大量的时间成本和专业的架构设计技能,而且容易陷入次优解。由于缺乏时间或架构专业知识,许多行业不具备通过“足够”的模型充分利用其数据的潜力。神经网络架构搜索(Neural Architecture Search,NAS)19是一种基于优化的算法,旨在为特定数据集上的特定任务寻找神经网络的最佳结构,解决预定义的架构不完善的问题。NAS 将神经网络架构的设计从繁杂的手动方式转变为自动化
73、方式,NAS 在图像分类、目标检测、语义分割等任务上的效果能够达到甚至优于手动设计的网络架构。NAS 在定义的指数级搜索空间中实施特定的搜索策略,寻找在不可见数据上实现高预测性能的神经网络架构。用于探索网络结构空间的搜索策略包括随机搜索、贝叶斯优化、进化方法、强化学习和基于梯度的搜索方法。031SecXOps 关键技术图 12 神经网络架构搜索19NAS 通过自动化探索多种潜在的网络架构,为 MLOps 的模型选择提供了更多的灵活性和更高效的解决方案。4.2.2.3思路方案NNI 中实现了 ENAS、DARTS、P-DARTS 算法,并提供 one-shot 算法的接口。另外,还支持网络模态(
74、Network Morphism)这样的经典搜索方法20。NAS 方法探索了许多具有可变复杂性的潜在解决方案,因此在计算上非常昂贵。他们的搜索空间越大,需要测试、训练、评估的架构就越多。这些方法需要大量资源和时间才能找到足够好的模型,因此在创建神经网络架构搜索任务时,SecXOps 将更倾向于将该项目所在的 Pod 分配到空闲计算资源更多的 Node 节点上。同超参数调优类似,神经网络架构搜索也需要预先编写 yaml 文件,对实验进行配置,如图所示。图 13实验 yaml 配置SecXOps 安全智能分析技术白皮书032在训练过程中,程序会实时输出模型结果,SecXOps 同样为此类任务建立起
75、了端口映射,允许用户能够访问并查看自己的任务完成进度,如下图所示。图 14架构搜索同时,点击对应的任务支持用户查看搜索到的神经网络架构。4.2.3模型自动化生成4.2.3.1定义内涵模型自动化生成是对指定的经过数据预处理后的数据文件,按照预设的一定参数,自动训练出一系列机器学习模型。通过多个模型的对比,保存效果和性能较为优秀的模型,或者按照一定的集成学习策略,如 Stacking、Bagging 等,将多个简单模型进行集成,形成效果更优的模型。4.2.3.2技术背景目前有很多开源的 AutoML 项目已经实现了模型的自动化生成,如 H2O、Autogluon 等。作为一个用于分布式、可扩展机器
76、学习的内存平台,H2O 能够与 Hadoop 和 Spark 等大数据技术无缝协作。H2O 提供了许多流行算法的实现,例如广义线性模型(GLM)、梯度提升机(包括 XGBoost)、随机森林、深度神经网络、堆叠集成、朴素贝叶斯、广义加性模型(GAM)、Cox 比例风险、K-Means、PCA、Word2Vec,以及全自动机器学习算法。通过输入一系列超参数即可完成模型的训练,对零代码基础的用户非常友好。033SecXOps 关键技术Autogluon 是亚马逊推出的一个新的开源库,开发人员可以使用该库构建包含图像、文本或表格数据集的机器学习应用程序。使用 Autogluon,只需编写几行代码就可
77、以利用深度学习的力量来构建应用程序。大部分 Automl 框架是基于超参数搜索技术,例如基于贝叶斯搜索的 hyperopt 技术等,Autogluon 则依赖融合多个无需超参数搜索的模型。例如 Stacking 方法:Autogluon 在同一份数据上训练出多个不同类型的模型,这些模型可以是 K 均值聚类、决策树、核方法等等,这些模型的输出进入到一个线性模型里面得到最终的输出。多层 Stacking:将多个模型输出的数据,合并起来,再做一次Stacking。在上面再训练多个模型,最后用一个线性模型做输出。为了避免后面层过多拟合数据,多层 Stacking 通常配合 K 折交叉 Bagging
78、使用,也就是说这里的每个模型是 K 个模型的 Bagging。它对下一层 Stacking 的输出,是指每个 Bagging 模型对应验证集上输出的合并。K 折交叉 Bagging 则是源于 k 折交叉验证。Bagging 是训练同类别的多个模型,他们可能使用不同的初始权重或者数据块,最终将这些模型的输出做平均来降低模型的方差。相同的初始参数,训练多次,对每次的误差求平均后作为这些初始参数的最终误差,可以最大化利用数据集,同时有效避免过拟合和欠拟合现象。K 折交叉 Bagging:每一折对应不同的初始参数,训练出多个模型,对结果求平均。4.2.3.3思路方案SecXOps 对 Autogluo
79、n 在表格数据上进行操作的流程进行了封装,并在前端进行了可视化展示。用户只需要选择训练集、验证集、测试集、标签列的名称索引以及最终模型保存策略(如最优性能、最优质量、性能与质量平衡等)即可进行一键式的模型生成,可用于后续的模型服务中去。4.3安全分析模型核心服务部署ModelOps 对所有的人工智能模型(图形模型、语言模型、基于规则的模型)以及决策模型的整个生命周期进行管理,确保对生产中的所有模型进行独立验证和问责,其核心功能涵盖了模型存储、模型测试、模型回滚和跨生产环境的 CI/CD 集成。尽管在核心功能上 ModelOps 与 MLOps 类似,但 ModelOps 能够为专家提供自主权来
80、解释结果和验证生产中人工智能模型的KPI。而在不完全依赖数据科学家和ML工程师的情况下,ModelOps 使模型推理变得可行。SecXOps 安全智能分析技术白皮书034ModelOps 在生产过程中管理 AI 模型的部署、治理和监控,协助企业在实际生产环境中扩大人工智能模型的应用规模,为企业的所有生产模型提供全面的运营能力和治理能力。图 15ModelOps74.3.1模型推理4.3.1.1定义内涵模型推理是指使用训练完成的 AI 模型,通过输入数据,获取经过模型处理后产生结果的过程。4.3.1.2技术背景在经过模型训练、模型封装、模型部署上线过程后,ModelOps 能够将模型部署为模型推
81、理服务。推理服务的常见部署方式有三种21:1.在物理机上部署。使用 Flask、Tensorflow Serving 等技术将训练好的模型文件和对应的推理代码封装为服务包,拷贝到物理机上实施部署,最后将服务接口和调用方法提供给模型推理服务。2.在虚拟机上部署。将物理机划分成多个虚拟机,使用 Flask、Tensorflow Serving 等技术将训练好的模型文件和对应的推理代码封装为服务包,部署在虚拟机上(为避免资035SecXOps 关键技术源冲突,一般一个虚拟机上部署一个模型服务)。考虑到大规模并发请求可以引入负载均衡进行流量分发。最后将对外的服务接口和调用方法提供给模型推理服务。3.基
82、于容器技术部署。通过 Docker 封装、打包模型推理任务,并隔离不同模型服务的运行环境,构建 Kubernetes 集群对推理服务进行编排,对基础资源进行合理分配和调度,保障服务的分布式容灾和资源的弹性伸缩功能。另外,针对不同的推理任务,用户需要在 ModelOps 平台提供的多种模型之间进行选择,ModelOps 平台通过提供模型筛选建议或自动化筛选策略,协助用户选择最优模型并简化后续模型更新和测试服务。Tensorflow Serving 是针对机器学习模型灵活且高性能的服务系统,专为生产环境而生。Tensorflow Serving 基于 Docker 快速部署模型,方便地进行版本迭代
83、和容器管理,此外Tensorflow Serving 基于 C+构建,摒弃了一些模型训练之中的冗余参数和设计,让模型可以高性能地运行在 CPU/GPU 服务器上。处理机器学习的推理方面,Tensorflow Serving 在训练和管理生命周期之后进行建模,并通过高性能的参考计数查找表为客户提供版本化的访问。Tensorflow Serving 提供与 Tensorflow 模型的现成集成,但可以轻松扩展,以便服务于其他类型的模型和数据。Tensorflow 的 Serving 功能有很多特点:可以同时服务多个模型或相同模型的多个版本允许部署新模型版本,而无需更改任何客户端代码支持金丝雀发布和
84、 A/B 测试高性能、低消耗、最小化推理时间内置调度程序,能分批处理各个推理请求,以便在 GPU 上联合执行,并具有可配置的延迟控制尽管 Tensorflow 的官方 Serving 服务有着极高的性能,却无法对未经向量化的数据进行运算。因此在使用 Tensorflow 的 Serving 功能时需要配置额外的数据预处理和数据后处理服务。4.3.1.3思路方案SecXOps 支持用户在平台上部署 Tensorflow 的 Serving 功能,当用户有其它模型推理需SecXOps 安全智能分析技术白皮书036求时也支持用户封装自定义模块进行推理。通过预设 Dockerfile 能够实现模块的封
85、装,与模型进行一对一绑定后,即可部署一个完整的模型推理服务。用户创建模型推理服务时可以指定模型,SecXOps 将自动找到对应的模型推理模块,按照该模块内包含的 Dockerfile 创建一个 Pod,该 Pod 被包含在一个 Job 中。Kubernetes 中的Job 和上文中提到的 ReplicaSet 相同,是一类 Pod 控制器,它会创建一个或者多个 Pod,并将继续重试 Pod 的执行,直到指定数量的 Pod 成功终止。随着 Pod 成功结束,Job 跟踪记录成功完成的 Pod 个数。当数量达到指定的成功个数阈值时,任务才结束。删除 Job 的操作会清除所创建的全部 Pod。模型推
86、理任务完成后,SecXOps 平台会自动采集 Job 中的 Pod 日志,将最终的输出或错误信息打印给用户。4.3.2模型更新4.3.2.1定义内涵本节的模型更新是指在模型训练完成并正式上线后,由运维人员采集并提供新的数据对原有模型进行再训练、更新参数的过程。4.3.2.2技术背景随着时间的推移,由于周期性事件、突变等状况的发生,当下的数据集和之前用于训练模型的数据集分布可能不再一致,这种现象被称为数据分布漂移。由于数据分布漂移现象的存在,基于过往数据训练的模型在推理上的准确性受到了影响,不再适用于当下数据上的任务,因此需要对模型进行更新。在监控到生产数据分布发生变化后,ModelOps 提供
87、两种主流模型更新服务:全量更新。在所有数据上对模型进行重新训练,这种更新方式保障模型学习到更全面的分布,最大限度提高模型准确率。增量更新/微调。在新数据上对模型进行微调,这种更新方式对计算资源的需求更小,模型的更新速度也更快,但在实际应用场景中,微调无法像全量更新那样提供更好的模型性能 22。4.3.2.3思路方案和模型推理类似,SecXOps 支持封装模型更新模块,通过模块对应的镜像创建容器,将037SecXOps 关键技术代码、数据和模型挂载到容器中,进行模型的更新操作。SecXOps 为模型更新服务开发了一个 python 的 SDK,允许用户通过调用 SDK 中的函数,将训练过程的评价
88、指标输出,在前端进行可视化的展示,如下图所示。图 16模型更新折线图图上的横坐标表示用户选择输出的轮次序号,纵坐标表示输出的指标,这里的指标提供多种选择,如精确度、召回率等等。通过折线图的对比,用户可以实时观测到更新结果,并选择在合适的位置停止。用户可以通过模块中封装的相关参数,选择保存模型的方式,保存下来的模型最终会存储在原有模型的仓库中,作为一个新的版本。4.3.3模型测试4.3.3.1定义内涵模型测试是指针对某个或某几个版本的模型,通过输入指定数据集对模型的输出结果进行评估,查看精确度、召回率等各项指标的过程。4.3.3.2技术背景无论是在机器学习模型的离线开发训练阶段还是在线提供服务阶
89、段,都需要对模型质量进行评估测试,以保障模型在性能和功能上满足业务需求。离线阶段的模型测试的指标主要是精确度、召回率、F1。在混淆矩阵中,统计了模型对样本的预测值和样本真实值之间不同状况的样本数,将真阳性记作 TP,真阴性记作 TN,假阳性记作 FP,假阴性记作 FN:SecXOps 安全智能分析技术白皮书038精确度(Precision),又称查准率,表示的是模型预测为正的样本在实际中也属于正类的概率:精确度 TPTP FP召回率(Recall),又称查全率,表示的是在实际中为正的样本中被模型预测为正的概率,评估了分类结果的完整性:召回率 TPTP FNF1 是对精确度和召回率的调和平均,综
90、合评估了精确率和召回率:F1 2*精确率*召回率精确率召回率而在线阶段的模型测试类型主要通过在线流量对多个模型进行 A/B 测试。A/B 测试是一种随机测试,对 A 组(对照组)和 B 组(实验组)进行假设检验,通过测试环节的表现,决定最终采用哪一组方案。对新模型和处理生产流量的旧模型进行 A/B 测试,通过向各版本模型分配流量或调用各版本模型进行测试23,比较哪个版本的模型更符合安全性和业务需求,这往往是模型测试的最后一个环节。在 A/B 测试中,需要测试模型变体,并比较各个变体的相对性能。如果新版本带来的性能优于或等同于原有版本,即可使用新模型替换原有模型。4.3.3.3思路方案在模型测试
91、方面,SecXOps 会将用户选择的数据集、模型及其对应模块的镜像进行一一组合,例如对同一项目中按照不同优化函数或训练了不同轮次的三个模型进行测试,测试数据挑选了两个不同来源的数据,SecXOps 即会创建六个不同的运行 job。这六个 job 会按照一定策略选取资源较为充足的node节点进行运行,最终的命令行输出会被采集,展示给用户。同时支持调用 SecXOps 内部的 SDK,将测试结果进行图表化的展示。4.4安全分析工作流定制工作流(Workflow)是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。工作流系统是以规格化的流程描述作为输入的软件组件,它维护流程的运行状态,并在人和应
汽车与零部件行业十年汽车复盘对2023年启示:精挑细选业绩为王-221102(52页).pdf
普蕊斯-专注的SMO专家充沛订单保障高增长-221101(25页).pdf
天孚通信-平台优势明显光引擎激光雷达打开成长空间-221102(31页).pdf
社服零售行业:社服零售板块海外复苏梳理-221101(29页).pdf
数据科技行业之出海产业2023年投资策略:顺时应势向海而行把握出海投资新机遇-221102(44页).pdf
芯碁微装-国内微纳直写光刻设备领军企业-221102(36页).pdf
容百科技-深度报告:正极全产品加速覆盖前沿产品行业领先-221102(29页).pdf
汽车&通信连接器行业深度报告:新能源打开国产替代窗口全球视角看中国连接器厂商机遇-221102(54页).pdf
消费行业:以史为鉴谋定后动-221102(31页).pdf
天赐材料:全球电解液龙头一体化扩产保障成长-221101(31页).pdf
中国人寿保险-惠民保发展回顾与展望:不啻微芒造炬成阳-221214(38页).pdf
中国金茂-深度报告:央企资源推动双曲线发展多业务支撑地产赛道-221214(25页).pdf
Podfest China:2020中文播客听众与消费调研[50页].pdf
BAIN&COMPANY:2020年中国购物者报告系列一:快速消费品市场增长稳健新冠疫情引发购物者行为巨变[28页].pdf
2020年中国车路协同行业精品报告-200331[46页].pdf
昂利康-业绩低点已过特色制剂和原料药驱动公司未来三年净利润年复合增速预计不低于35%-20200725[20页].pdf
铂力特-航空航天3D打印领先者下游市场快速放量-20200726[29页].pdf
2020年中国FPGA芯片行业研究报告-200131[47页].pdf
2020年中国无线定位模组行业概览-20200724[34页].pdf
晨光生物-植物提取行业龙头未来成长可期-20200726[32页].pdf
春风动力-快乐春风启动引擎-20200723[40页].pdf
大北农-公司研究报告:转基因先发优势稳固养殖业务迎来新一轮创业浪潮-20200724[22页].pdf
电力设备行业:仓位上升电新板块又见风起-20200726[20页].pdf
电子行业半导体系列深度报告:刻蚀设备最优质半导体设备赛道技术政策需求多栖驱动-20200723[25页].pdf
线上健身第一股-keep招股说明书(463页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2021新中产人群洞察报告(30页).pdf
锐仕方达&薪智:2022年薪酬白皮书(105页).pdf
美团:2022新餐饮行业研究报告(74页).pdf