《DataCastle数据城堡&移动云:人工智能与数据科学竞赛白皮书2022(70页).pdf》由会员分享,可在线阅读,更多相关《DataCastle数据城堡&移动云:人工智能与数据科学竞赛白皮书2022(70页).pdf(70页珍藏版)》请在三个皮匠报告上搜索。
1、洞察竞赛趋势,激发数据力量人工智能与数据科学竞赛白皮书 2022White Paper ofAI&Data Science Competition 2022AI&DATA SCIENCE COMPETITION人工智能与数据科学竞赛白皮书2022DATA SCIENCE洞察竞赛趋势,激发数据力量Follow the Tendency of CompetitionUnleash the Power within DataWhite Paperof AI&Data Science Competition 2022-编委会成员-(以姓氏笔划为序)付 莉刘心田王沂帆徐浩程梁加琦郭 悦张 洋张敏文刘邵星
2、杜宇健李锐梅张琳艳赵宇光钱 岭周 涛潘 军魏晓锋游丽金CONTENTS基本价值及相关政策01发展情况与趋势洞察02目录08一、人工智能与数据科学竞赛概述二、人工智能与数据科学竞赛基本价值091.公共数据要素价值挖掘与应用探索092.赋能企业人才储备,完善云生态建设3.跨学科融合交流与高校人才培养091012121415一、各类赛事差异化发展161.政府赛事聚焦公共事业与行业应用,数字孪生 赋能智慧城市建设162.企业赛事探索竞赛与社区深度融合,构建活跃 用户生态173.科研类赛事独立性减弱,尝试绑定政企赛事二、赛题趋势1.计算机视觉(CV)赛题是2022年最大热门2.工业类赛事聚焦应用落地人工
3、智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022多种赛事主体03赛事基本架构04一、主办方19二、赛事平台241.政府202.企业3.科研机构221.第三方独立平台252.企业自建平台2527三、参赛者281.参赛者身份特征282.参赛者诉求29373938394142424235351.赛事方案2.传播方案3.技术方案1.平台部署2.定制化开发一、方案设计二、技术部署1.赛事招募2.选手运营三、赛事运营CONTENTS人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science
4、Competition 2022前景展望05一、平衡数字中国建设区域差异,赋能数字政府生态发展48二、数字中国展开布局,数据要素相关竞赛或纳入考核指标50三、成果落地案例涌现,价值转化路径逐渐清晰50四、解决人才招聘痛点,利用考核操作过程的评分系统精准评估技能五、科研教学为微型赛事提供落地场景六、AIGC带来AI革命,NLP赛题将成为新一阶段热点七、仿真赛题贴进实际问题,强化学习实现最优解或成为热门赛题类型八、线上赛事青睐云端环境,线下赛事追求竞技感51525353541.线下赛事442.成果手册453.新闻通稿454.会议/论坛455.项目孵化464.活动运营435.社区运营433.专家运营
5、42四、赛事成果呈现44CONTENTS人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022年度赛事案例展示06一、政府赛事案例56二、企业赛事案例59三、科研机构赛事案例62参考文献65人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022人工智能与数据科学竞赛基本价值及相关政策Value&Relevant Policy ofAI&Data Science Competition01AI&DATA SCIENCE COMPETITION20
6、22 人工智能与数据科学竞赛白皮书 08人工智能与数据科学竞赛白皮书2022一、人工智能与数据科学竞赛概述现实问题简单问题复杂问题简单分析复杂分析数据分析机器学习技术方向业务方向深度学习(方法)人工智能图1-1 数据分析、人工智能与机器学习示意图人工智能与数据科学竞赛是一种以竞赛为形式的数据应用模式,在短时间内聚集大量数字人才,通过合理的赛事设计促进人工智能应用开发和数据要素的价值挖掘。人工智能与数据科学均以数据为基础,数据科学侧重依靠数据获得见解与理解力,人工智能侧重依靠数据产生应用,二者相互依赖、共同推动科技发展。在二十多年的竞赛实践中,人工智能赛事与数据科学赛事逐渐融合,同一赛事中兼具数
7、据分析赛题与机器学习赛题成为常态,因此,我们将人工智能与数据科学同时作为竞赛研究的主题。人工智能与数据科学竞赛作为一种创新业态,对内汇聚产学研用多方资源,对外影响、助力整个产业生态。在数据科学生态系统中,政府、企业、技术人才、竞赛机构形成了一个良性循环的子系统,创新系统内数据要素、人才要素流通机制,赋能数据科学产业发展。在近十年的探索中,人工智能与数据科学竞赛在国内形成了成熟可复用的模式,孕育了一批高度专业化的赛事运营机构。随着竞赛模式迭代,其主体适用性不断增强,政府、企业、科研机构、高校以及各类社会组织开始用人工智能与数据科学竞赛解决自身痛点难点问题,办赛规模持续扩大,并进入大众及主流媒体视
8、野。人民网在数据科学竞赛:数据开放、精准招聘新抓手中提到,“政府和企业持续高质量地开放数据要素、竞赛平台充分利用先进技术以确保数据要素安全是数据科学竞赛良性发展的重要保障。未来,数据科学竞赛将成为政府数据要素流通生态中活跃的一环,也将成为企业遴选人才与算法、资本发掘项目的利器。”2022 人工智能与数据科学竞赛白皮书 09人工智能与数据科学竞赛白皮书2022政府拥有海量人口、城市、税收、工业等社会关键数据,担负着激发社会公共数据要素潜在价值、引导社会经济良性发展、提升人民生活水平的重要责任。创新公共数据要素流通方式,激活数据要素潜能,探索公共数据要素应用方式是政府部门数字化建设工作的重要内容。
9、二、人工智能与数据科学竞赛基本价值1.公共数据要素价值挖掘与应用探索案例聚焦主办方 山东省大数据局山东省第三届数据应用创新创业大赛促进山东数据创新应用工作在场景、人才、算法、产品各个方面积累、沉淀了大量资源,可助推山东省围绕“协同创新,强省惠民”主题,打造更多优秀数据应用场景。值得一提的是,根据疫情防控需要,大赛增设“数据助力疫情精准防控”赛道,及时推动获奖作品在山东省推广应用,在疫情防控中积极发挥作用,引起了很好的社会反响。山东省第三届数据应用创新创业大赛随着大数据与数字化在社会经济中的作用日益提升,企业寻求数字化转型已经成为必然趋势。对于以数字化与大数据为立足之本的科技企业而言,对数据算法
10、人才的争夺成为企业生存发展的根本。企业举办人工智能与数据科学竞赛能够实现大量算法人才快速汇聚,并通过竞赛结果进行人才甄别与筛选,进而挖掘优秀人才,优化企业技术人才梯队,完善企业数据人才储备。同时,各大科技企业在云生态建设领域投入巨大,致力于构建集算力、产品、服务与一体的全方位云生态。举办人工智能与数据科学竞赛首先能够展示企业的云计算基础以及产品功能,产生品牌效应,推动云产品营销。另一方面能够持续扩大用户规模,推动社区建设,鼓励用户持续输出内容与技术,不断完善云生态建设,提升市场竞争力。2.赋能企业人才储备,完善云生态建设2022 人工智能与数据科学竞赛白皮书 10人工智能与数据科学竞赛白皮书2
11、022利用数据科学技术进行量化研究、大样本研究是目前学术界的主流研究方法之一,人工智能与数据科学竞赛能够有效促进数据科学人才与其他学科的融合交流。高校作为人才储量最大的单位,具备先天办赛优势。相对于政府、企业而言,高校办赛成本低,依靠天然人才池,可以获得较高办赛性价比。对于高校而言,数据科学成为未来的主流研究领域是大势所趋,而数据科学不能只停留在课堂上,必须通过实战进行学习训练,人工智能与数据科学竞赛为高校提供了一个良好的实训机会,让高校数据科学学科建设更加系统化,更加完整,同时可以提升学生数据科学应用能力,促进高校人才培养。3.跨学科融合交流与高校人才培养案例聚焦主办方 科大讯飞科大讯飞 2
12、022 iFLYTEK A.I.开发者大赛联合优质企业、知名高校、融投资机构等 53 家合作伙伴,围绕十大新兴产业开启 108 个赛道,分别设置了 72 道 AI 算法赛以及 36 道AI 应用赛。A.I.开发者大赛与 DataCastle 数据城堡携手前进,积淀至今已举办第五届,致力于用人工智能解决各类生产生活问题,推动前沿科研成果转化、促进产业发展、发掘行业优秀人才,助力 AI 生态建设。科大讯飞 2022 iFLYTEK A.I.开发者大赛案例聚焦主办方 深圳国家基因库深圳国家基因库、鹏城实验室、深圳华大生命科学研究院发起 2022“猛犸杯”国际组学数据创新大赛,旨在为生命科学领域现有科
13、研问题及挑战提供解决方案,引领生命科学大数据产业创新发展;同时为生命科学、医学、计算机科学等多领域的专业人才搭建跨领域、跨学科的技术交流平台,激励生命科学大数据人才的创新意识和综合技能,推进BT 与 IT 融合(生物与信息融合)发展。国家基因库 2022年“猛犸杯”国际组学数据创新大赛人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022人工智能与数据科学竞赛发展情况与趋势洞察Development Tendency ofAI&Data Science Competition02AI&DATA SCIENCE COMP
14、ETITION案例聚焦主办方 数字中国建设峰会组委会数字中国创新大赛由数字中国建设峰会组委会主办,关注数字中国和数字福建建设,汇聚大众创业万众创新的新方向、新观点和新思路,共同推动数字技术创新应用和数字产业发展。数字中国创新大赛采取多赛道并行的竞赛形式,围绕行业数字化与信息技术创新应用等设置多个并行赛道,连续多届采用“DCIC 数字中国创新大赛”名称,已形成知名赛事品牌。DCIC数字中国创新大赛2022 人工智能与数据科学竞赛白皮书 12人工智能与数据科学竞赛白皮书2022一、各类赛事差异化发展1.1 持续性赛事比例平稳增长,赛事品牌逐渐成型1.政府赛事聚焦公共事业与行业应用,数字孪生赋能 智
15、慧城市建设经过统计 2022 年由政府部门主办 64 场赛事信息后,我们发现政府背景的人工智能与数据科学竞赛呈现稳中求进的总体态势。在 2022 年举办的 64 场政府赛事中,持续性赛事(非首届)数量为 34 场,占全年政府赛事总场次的 53.1%,2020-2022 年三年间持续性政府赛事比例增长平滑,说明政府赛事总体呈现稳定态势,持续办赛意愿较强。此外,持续性赛事通常沿用同一赛事名称,如第一、二、三届山东省数据应用创新创业大赛,第一、二、三届数字四川创新大赛等,通过多年持续办赛,逐渐在人工智能与数据科学竞赛领域内扩大赛事影响力,形成以地域和名称为核心的赛事品牌。图2-1 政府主办的持续性赛
16、事增长情况29.4%42.5%53.1%2020年2021年2022年持续性政府赛事在全年政府赛事中的占比2022 人工智能与数据科学竞赛白皮书 13人工智能与数据科学竞赛白皮书20221.2 综合型赛事仍是主流根据赛题范围,政府办赛可以分为两类:综合赛事与专项赛事。综合赛事中赛题范围大,通常涵盖经济、民生、政务、管理等多个种类,如 2022 数字中国创新大赛分为数字党建赛道、数字城市设计赛道、数字医疗赛道、数字低碳赛道、区块链赛道、网络安全赛道等,是典型的综合型政府赛事。专项赛事赛题范围小,通常集中于某个具体领域,如金融类赛事、政务类赛事、技术应用类赛事等,如广东省公安厅主办的智慧新警务大数
17、据建模大赛,赛题集中在治安管理+大数据的范畴内。近年来数据科学赛事市场中专项赛事比例逐渐增加,但在政府办赛中,综合赛事仍是主流。在 2022 年的 64 场政府赛事中,综合型赛事共 37 场,占比 57.9%。同时,在专项赛事中存在政府挂名,企业或高校主办的情况。综合来看,由政府机构主办的赛事以综合型赛事为主。1.3 数据科学赋能数字孪生,助力智慧城市建设2022 年,数字经济发展和智慧城市建设成为多地政府部门的重点工作,以数字孪生为代表的人工智能技术在智慧城市建设中发挥着积极作用。在政府主办的数据科学赛事中,智慧城市赛题比重逐年提升。在 2022 年政府赛事的 177 道赛题中,与智慧城市建
18、设有关的赛题数量达到 136 道,占 76.8%。案例聚焦主办方 四川省大数据中心数字四川创新大赛由四川省大数据中心主办,迄今已连续举办三届,在参赛者群体中通常被简称为“四川大赛”,形成了与四川省深度绑定的赛事品牌。数字四川创新大赛2022 人工智能与数据科学竞赛白皮书 14人工智能与数据科学竞赛白皮书2022用户生态建设是大型技术企业十分重视的工作之一,阿里巴巴、华为、百度等企业均拥有自建的技术交流社区和开发平台,以完善自身用户生态和技术储备。人工智能与数据科学竞赛作为技术社区的重要组成部分,被大型技术企业作为社区引流、用户留存的重要手段,同时通过竞赛提升社区用户参与度,提高用户粘性和社区技
19、术浓度。2022 年大型技术企业发布在本企业自建平台的赛事占全年赛事总场次的 21%,是人工智能与数据科学竞赛的重要组成部分,也是众多开发者接触人工智能与数据科学竞赛的渠道。大型技术企业赛事作为企业技术社区的有机组成部分,是企业产品推广、人才选拔、技术研发的重要途径,其赛事赛题特点与企业发展方向和技术重点联系密切,如 2022 年阿里天池平台赛事围绕云计算、电商数据分析等重点展开,与阿里巴巴自身业务高度契合;华为开发者平台赛事与百度飞桨平台赛事也积极配合自身业务线开展和科研攻关。值得注意的是,近年来随着数据科学教育逐渐普及,数据科学人才基数增加,各大技术社区开始利用数据科学新人赛争夺潜在社区用
20、户。2022 年阿里天池平台上线训练赛新人赛 17 道,华为开发者平台上线训练赛 14 道,百度飞桨平台上线训练赛 21 道,均较上年有明显增加。同时,三家赛事平台均与自身开发者综合平台深度绑定,已经形成了较为完善的开发者培养、训练、招聘、成果产出的技术生态。图2-22.企业赛事探索竞赛与社区深度融合,构建活跃 用户生态智慧政务智慧医疗智慧养老智慧生活智慧安防智慧应急智慧城管智慧交通22.9%14.9%12.2%6.1%5.2%7.3%11.6%19.8%智慧城市赛题领域分布图人工智能与数据科学竞赛诞生于学术会议,在出现之初长期作为学术研究活动存在,但近年来学术机构独立办赛比例持续下降,与政府
21、、企业合作办赛逐渐成为科研学术机构办赛的主要选择。首先,随着竞赛形式多样化,办赛成本逐渐上升,部分学术机构由于资金不足等原因难以独立办赛;第二,学术竞赛头部化趋势明显,新兴学术赛事难以与 KDD CUP、CCF等头部知名赛事竞争,选手招募困难;第三,目前许多学术类赛事实际并非由学术机构发起,科研学术机构仅提供冠名与评审专家,这种竞赛组织模式逐渐成为学术类赛事的主流趋势。图2-3 典型科研类赛事KDD CUP 2022图2-4 典型科研类赛事猛犸杯国际组学数据创新大赛2022 人工智能与数据科学竞赛白皮书 15人工智能与数据科学竞赛白皮书2022相对于正式赛,训练赛难度较低,适合技术新人培养数据
22、科学应用开发的基本技能。训练赛增加一方面扩展了数据分析建模的应用广度,吸引更多技术新人参与;另一方面丰富的训练赛能够在自身平台内搭建完整的技能训练体系,引导初级开发者实现技术进步。训练赛的增加也是头部企业开发者社区建设的有效推手,完善的训练体系扩展了社区受众范围,提升了社区用户粘性,促进开发者社区生态稳定发展。3.科研类赛事独立性减弱,尝试绑定政企赛事案例聚焦主办方 鹏城实验室、大连市人民政府、湛江市人民政府2022 年全国水下机器人大赛国际线上赛由鹏城实验室、大连市人民政府、湛江市人民政府联合主办,利用计算机视觉技术将水下机器人收集的视觉信息进行分析归纳,提升水下勘探效率,促进水下目标感知与
23、检测相关理论、技术及应用的发展,提升相关研究水平。2022年全国水下机器人大赛国际线上赛图2-5 CV应用领域及比例图2022 人工智能与数据科学竞赛白皮书 16人工智能与数据科学竞赛白皮书2022二、赛题趋势1.计算机视觉(CV)赛题是2022年最大热门人工智能与数据科学竞赛与当下热点技术应用紧密相关,计算机视觉技术的成熟推动了自动驾驶、智能机器人等行业的爆发式增长,同时热点行业反向带动计算机视觉相关技术进入大众视野,普遍应用于多重领域。在 2022 年统计到的 635 道赛题中,计算机视觉(以下统称 CV)相关赛题占比36.5%,达 232 道,是占比最大的技术方向。图像采集设备在各类行业
24、中的普及为 CV技术的广泛应用提供了广阔空间,使 CV 技术成为最适合跨行业应用的人工智能技术,赋能自动驾驶、医疗影像识别、水下勘探、行为识别、成品检测、遥感测绘等诸多领域。因此,越来越多的相关企事业单位通过人工智能与数据科学竞赛发现优秀 CV 人才、挖掘优质解决方案。图像分类目标跟踪图像识别视频分析目标识别社会治理文娱传媒航空航天农林养殖遥感监测交通出行工业制造生物医疗电子商务CV赛题应用场景分布CV赛题技术方向分布18%17%14%13%11%9%8%6%4%30.4%27.5%25.8%10.1%6.2%2022 人工智能与数据科学竞赛白皮书 17人工智能与数据科学竞赛白皮书20222.
25、工业类赛事聚焦应用落地自 2021 年起,工业类人工智能与数据科学竞赛逐年增多。伴随工业互联网的普及应用以及传统工业制造业数字化转型的趋势,工业制造企业开始重视对工业数据的全面深度感知、实时传输交换、快速计算处理和高级建模分析,实现智能控制、运营优化和生产组织方式变革。在数据分析处理领域,工业类企业以成熟技术与工业生产实际的结合应用为主要着力点,关注赛事成果的可用性与落地效果。在 2022 年的 12 场工业类赛事中,全部算法赛赛题均围绕工业生产中的实际问题进行设计,赛题难度适中,赛题方案易落地。如首届雪浪算力开发者大赛中两道赛题分别为汽车变速器阀体检测与汽车全厂排产优化,两道赛题分别聚焦工业
26、生产场景中的生产细节问题与数字化生产的流程设计,赛题设计靶向性明显。再如安全技术国家工程研究中心主办的工业安全生产环境违规使用手机的识别挑战赛,聚焦安全生产的具体场景,具有广泛适用性,成熟的赛事成果能够直接接入工厂监控系统,为企业安全生产提供保障。再如第七届“创客中国”人工智能创新应用产业链赛道中的智慧工业方向赛题分别为汽车冲压线尾零件缺陷检测、线缆制造排产优化、AI+ASM 模型模拟在污水处理领域的应用,三道赛题均具有明确的应用场景和开发需求,使赛事方案作品更容易接入企业数字化生产系统。工业制造业企业的自身调性决定了其赛题从细节出发,以应用实践为落脚点的特点;同时,数字化转型的迫切需求与数字
27、化人才短缺之间的矛盾促使大型制造业企业利用竞赛的形式解决自身痛点。案例聚焦主办方 亚马逊云科技亚马逊云科技 AI For Good-2022 遥感光学影像目标检测赛由亚马逊云科技主办,旨在通过大尺寸图像目标识别技术对像素级遥感光学影像进行充分挖掘,赋能我国遥感空间测绘检测的可持续发展。亚马逊云科技 AI For Good-2022案例聚焦主办方 中国机械工程学会雪浪算力开发者大赛由江苏无锡经济开发区管理委员会和中国机械工程学会联合举办,以“汽车行业数字化智能化转型”为主题,开放“排产优化”和“阀体检测”两个赛题,大赛依托算力设施、数据网络、智能引擎构成的新一代制造业数字化基础设施,聚焦汽车生产
28、行业实际生产场景,开发实用的工业应用算法。雪浪算力开发者大赛人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022人工智能与数据科学竞赛多种赛事主体Multiple Participant ofAI&Data Science Competition03AI&DATA SCIENCE COMPETITION2022 人工智能与数据科学竞赛白皮书 19人工智能与数据科学竞赛白皮书2022一、主办方人工智能与数据科学竞赛作为一种数据要素应用形式,能够衍生出诸多价值路径,为数据要素所有者提供包括经济收益、人才选拔、政务开展等诸
29、多价值。基于主办方的价值诉求与身份定位,人工智能与数据科学竞赛的主办方可以分为三大类:政府、企业与科研机构。在 2022 年统计到的 211 场竞赛中,企业办赛占据主流,共计 109 场,占比 51.7%;政府办赛数量多于科研机构办赛,共计 64 场,占比 30.3%;科研机构(包含高校)办赛 38 场,占比 18%。同时,人工智能与数据科学竞赛产生的价值与数据要素的种类密切相关,政务数据主要用于促进政务服务开展与改善、金融数据主要用于优化金融服务方式、电商数据主要用图3-1主办方政府发布需求筛选方案展示需求提供方案企业科研机构参赛者在职人士学生科研人员赛事服务机构全局服务第三方竞赛平台企业技
30、术社区其他服务云计算供应商媒体会务图3-2 不同办赛主体赛事场次占比30.3%政府赛事企业赛事科研机构赛事51.7%18%数据科学竞赛主体图谱 2022 人工智能与数据科学竞赛白皮书 20人工智能与数据科学竞赛白皮书20221.1 探索公共数据应用,推动创新项目孵化1.2 赛事水准保持高位,赛事吸引力强“数据二十条”指出:数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各环节,深刻改变着生产方式、生活方式和社会治理方式。数据基础制度建设事关国家发展和安全大局。要坚持共享共用,释放价值红利。合理降低市场主体获取数据的门槛,增强数据要素共享性、
31、普惠性,激励创新创业创造。在这种背景下,政府机构,尤其是各地大数据局、经信办等部门亟需创新数据开放、数据应用新方式,拓宽公共数据开放渠道、提升公共数据开放质量、推动公共数据应用的成果转化。政府办赛虽然只占据 2022 年人工智能与数据科学竞赛总场次的 37%,但在整体竞赛生态中具有较大影响力。首先,政府赛事对高水平团队具有较高吸引力。政府机构作为经济民生发展的指导者,能够聚合多方资源,为竞赛成果落地提供政策扶持与资源保障。在近年来的竞赛实践中,政府办赛多以项目孵化扶持作为竞赛激励,包括资本对接、场地支持等。这些竞赛1.政府图3-3 政府办赛价值链图数据要素信息收集数据拥有者数据分析&应用开发价
32、值激活社保数据医疗数据违章数据公共监控人民政府行政部门成熟企业创业团队个人开发者智慧政务智慧金融智能制造智慧城市举办赛事成果转化于调整电商经营策略。数据要素的种类差异使同类主办方举办的竞赛间呈现出不同特征,也发展出了不同的办赛倾向。因此,我们将根据数据要素的种类,对三类办赛机构进行进一步的细分。2022 人工智能与数据科学竞赛白皮书 21人工智能与数据科学竞赛白皮书20221.3 政务数据为主,多种类数据辅助在政府赛事中,公共政务数据是赛事数据的主要组成部分,在政务数据之外,政府机构通过聚合多方资源,形成了支撑大规模赛事的数据矩阵。根据数据要素种类不同对政府赛事进行细分,能够更加清晰地观察政府
33、办赛的倾向和特征。政务数据要素政务数据要素是政府赛事中使用最多的数据要素种类,在 2022 年政府赛事 179 道赛题中占 83%。政务数据由各级政务部门及其技术支撑单位在履行职责过程中依法采集、生成、储存和管理。在“开放是常态,不开放是例外”的普遍要求下,政务数据开放分为无条件开放、有条件开放和不予开放三类。可以提供给所有公民、法人和其他组织使用激励对具有优势技术和专利的创新创业团队产生了较大吸引力,使整体竞赛水平保持在高位。第二,政府赛事能够提供优质稀缺数据。政府办赛提供了大量脱敏的公共政务数据,尤其是许多难以接入公共数据交易平台的有条件开放的数据经过专业的脱敏处理,通过竞赛释放给社会公众
34、,实现“以赛促用”。这些政务数据兼具稀缺性与高价值,成为政府赛事区别于企业办赛的一大重要特征。第三,政府赛事能够提供优质的技术证明。对于个人参赛者,尤其是学生参赛者而言,获得赛事获奖证书是参加竞赛的主要目的之一,获奖证书能够成为其技能水平的重要佐证,并在就业过程中提供帮助。随着竞赛数量增加,赛事水准参差不齐,赛事证书含金量差异逐渐扩大,用人单位对应聘者获奖证书的甄别与评估日趋严格。政府赛事证书基于政府信用背书,能够得到众多用人单位认可,含金量高,受到参赛者青睐。图3-4 典型政府赛事 DCIC 2022数字中国创新大赛2022 人工智能与数据科学竞赛白皮书 22人工智能与数据科学竞赛白皮书20
35、222.1 企业办赛兼顾人才储备与品牌建设数据驱动是企业实现数字化转型的核心方式,人工智能与数据科学竞赛可以弥补企业在数字化转型过程中数据应用环节人力、时间、成本等方面的不足,部分竞赛赛题深入到数据处理环节,探索复杂数据处理的新方法。同时,数据人才是实现数字化转型的基础,通过人工智能与数据科学竞赛,企业能够进行人才识别、提高精准招聘的精度和效率,为企业数字化转型发展提供最根本的支持。首先,人工智能与数据科学竞赛对企业的核心价值是人才。无论科技企业还是传统企业,人才都是数字化发展的根本。在人工智能与数据科学竞赛中,企业根据自身实际业务与真实业务数据进行赛题设计,并根据自身实际需求(校招、社招等)
36、限制参赛者范围(如将参赛者范围限定在高校学生、社会人士、研究生及以上群体等),通过公平的评分规则与客观的评分系统判断参赛者水平,提升精准招聘的准确度及效率。另外,数字项目是人工智能与数据科学竞赛的基本形式,在精准招聘之外,参赛者针对赛题项目设计的具体算法也为企业办赛贡献了重要价值。人工智能与数据科学竞赛可以看做一种新型的项目众包模式,与传统众包模式相比,竞赛参与者的技术水平与积极性更高,能够设计更复杂的业务算法,提升了项目众包的深度与广度。的公共数据属于无条件开放类:可以部分提供或者需要按照特定条件提供给公民、法人和其他组织的公共数据属于有条件开放类涉及国家秘密、商业秘密、个人隐私和国家安全,
37、以及其他不宜提供给公民、法人和其他组织的公共数据属于不予开放类。其中有条件开放类数据经过竞赛筹备方的脱敏处理,减少了数据开放过程中可能出现的隐私数据泄露问题,成为推动数据开放工作的新方式。另外,通过竞赛方式进行的数据开放指向性强,依靠合理的赛题设计与“招标式”的方案征集方式,实现从政务数据要素到数据应用成果的转换。其他数据要素政府机构的工作职能涵盖经济发展、民生建设、政务服务等多个领域,在政务数据之外,政府赛事也通过资源整合,将金融数据、医疗数据、工业数据接入竞赛,构建多面覆盖的赛题矩阵,充分利用政府赛事的规模效应,推动多领域的数据应用建设。2.企业2022 人工智能与数据科学竞赛白皮书 23
38、人工智能与数据科学竞赛白皮书2022图3-5 企业赛事赛题方向分布图2.2 赛题方向多样化,数据密集型领域仍是主流在 2022 年企业赛事中,金融、生物医药、电子通讯等数据密集型赛题占据了绝对主流,其中金融领域赛事占比28%,生物医药赛题占比11%,电子通讯类赛题占比15%。2.3 人工智能与数据科学竞赛成为企业公益新路径人工智能与数据科学竞赛数据开放、广泛参与的特点使其与公益活动具有天然的契合性,也成为诸多企业践行社会责任的选择。2022 年以公益为主题的数据科学赛事共计 9 场,赛题方向涵盖可持续发展、残障人士帮扶、公共安全等公益领域。在公益类赛事中,企业通过提供数据资源、算力支撑、技术支
39、持、奖金激励等方式,引导数据科学开发者进行公益项目开发,在履行企业社会责任的同时,向社会大众传达公益理念。与此同时,赛题方向多样化趋势逐渐增强,随着语义识别技术的发展,文献学、社会学等文本数据丰富的赛题开始增加,如 2021 年的“中国数字人文开放数据创新研究大赛”,2022 年的“创承非遗”文化大数据人工智能创新大赛,基于计算机视觉、自然语言处理等数据分析技术实现对社会学文本数据的处理与分析。案例聚焦主办方 北京字节跳动公益基金会技术公益创新杯”是抖音、北京字节跳动公益基金会等共同发起的技术公益创新大赛,以“连接善意 共创美好”为理念,携手产学研各界力量,通过技术创新解决真实的社会问题,共创
40、公益新可能。2022技术公益创新杯AI助力视障群体信息通讯生物医药企业服务文娱传媒交通运输电子商务跨行业应用工业制造旅游网络技术其他金融28.4%15.3%10.5%9.2%8.7%7.4%5.8%5.3%4.7%2.5%1.3%2022 人工智能与数据科学竞赛白皮书 24人工智能与数据科学竞赛白皮书20223.1 培育技术实力,专注跨学科交流科研机构与高校主办的赛事商业化氛围较弱,主要集中在学科竞赛和跨学科科研攻关两大方面。在学科竞赛方面,中国计算机学会(CCF)主办的 CCF 大数据与计算智能大赛(CCFBigData&ComputingIntelligenceContest,简称 CCF
41、BDCI)是国内数据科学类学科竞赛的佼佼者,由 CCF 于 2013 年创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。近年来 CCFBDCI 也更多地将视线转移到数据科学技术的跨学科融合应用方向,2022 年 CCFBDCI 的赛题涵盖工业生产安全、移动设备安全等应用方向。其他高校与科研机构举办的人工智能与数据科学竞赛多以跨学科交流为主,如国家基因库主办的“猛犸杯”国际组学数据创新大赛,旨在推动数据科学与基因组学的融合;清华大学主办的 CCL2022 新闻脉络关系检测任务评测大赛则将 NLP 技术与新闻学结合,推动新闻学与社会学发展。高校办赛通常有两种形式,一种是高校基于学术研究
42、和人才培养进行的校内或校际间竞赛,竞赛赛题数据来源于高校学术资料或社会赞助,参赛群体限定在高校学生中,奖金数额通常较小,以提升高校科研水平、影响力和技能实训为主要目的。另一种是高校与政府、企业等社会机构的联合办赛,在这类竞赛中,高校往往承担技术专家与赛事组织的功能,依托于高校自有的专业性技术专家团队搭建竞赛平台、设计赛题算法、进行赛事运营,这类竞赛一方面可以增强高校与社会的联系,用学术成果与高校人才赋能实际业务,另一方面能够提升在校学生的业务实操能力,成为一种从课堂到社会的新型教育手段。对于高校而言,数据科学成为未来的主流研究领域是大势所趋,而数据科学不能只停留在课堂上,必须通过实战进行学习训
43、练,人工智能与数据科学竞赛为高校提供了一个良好的实训机会,让高校数据科学学科建设更加系统化,更加完整,同时可以提升学生数据科学应用能力,促进高校人才培养。人工智能与数据科学竞赛对科研机构的价值与对企业的价值具有极大相似性。科研机构以科研成果产出与科研人才培养为发展重心。与企业尽可能在更多参赛者中筛选优秀人才不同,科研机构办赛以精准为重点,吸引领域内顶尖人才参赛是科研机构办赛的侧重点。3.科研机构2022 人工智能与数据科学竞赛白皮书 25人工智能与数据科学竞赛白皮书2022人工智能与数据科学竞赛的主办机构类型多样,主要共同点是拥有充足的数据资源。人工智能与数据科学竞赛需要的赛事设计能力、技术支
44、持能力、赛事运营宣传能力可能超出部分主办机构的能力或职责之外。因此赛事平台成为将数据资源转化为完整竞赛的重要第三方。赛事平台的主要职责包括三方面:赛事设计、技术支撑与赛事运营。赛事设计包括赛题设计、赛制设计、赛程设置、评分算法设计等,需要综合主办方需求、目标参赛者画像、防作弊等多方面进行,高度依赖办赛经验。因此,初次办赛的主办方通常需要专业赛事平台对赛事进行辅助设计,规避可能存在的种种问题。技术支撑包括数据管理、算力支持、平台建设、评分系统开发等,涉及大量数据清洗加密、网站开发建设、云计算资源支撑的工作,保障赛事系统平稳运行。赛事运营包括赛事招募、选手运营、专家运营、活动运营等,主要涉及资源整
45、合利用的工作,依赖相关资源积累,这也是第三方赛事平台的主要能力之一。1.第三方独立平台二、赛事平台DC 竞赛(DataCastle 数据城堡)平台于 2016 年正式上线,由电子科技大学大数据研究中心主任周涛教授发起成立,平台基于公司多年竞赛业务体系的技术沉淀,为用户提供竞赛、实训、人工智能实验室、算力资源等服务。DC 竞赛以 Kaggle 竞赛模式为蓝本,采用平台化、模块化、自动化的办赛方式,同时结合国内具体办赛需求,基于自研数据科学实训平台 DCLab 与相关专利,为主办方提供定制化办赛服务。经过多年办赛实践,DC 竞赛平台发展成为国内领先的第三方办赛服务供应商,平台注册用户超过 32.5
46、 万人,上线赛题 500 余道,累计发放奖金 9700 余万元。DC 竞赛举办的代表性赛事包括:“中国工业互联网大赛”(工业和信息化部主办)、山东省数据应用创新创业大赛、“数字四川创新大赛”、“梧桐杯中国移动大数据应用创新大赛”、“2020 深圳开放数据应用创新大赛”、“国家基因库猛犸杯国际组学数据创新大赛”等。DC竞赛2022 人工智能与数据科学竞赛白皮书 26人工智能与数据科学竞赛白皮书2022和鲸社区(原“科赛网”)成立于 2015 年,是中国知名的第三方数据科学社区之一,较早一批专注于大数据算法比赛的平台,拥有近 20 万注册数据科学家用户,辐射超过30 万数据人才群体。和鲸科技旗下的
47、 ModelWhale(原 K-Lab),是具备国际领先性的数据科学 SaaS 平台,可满足数据科学家、人工智能工程师、商业分析师等数据工作者在线完成分类、建模、分析、可视化、结果输出等任务,并支持私有化部署和云端协同,帮助企业、高校、科研机构开展工业级数据科学应用与人工智能研发。和鲸社区举办的代表性赛事包括:中国联通“沃+海创”开放数据应用大赛、破壁计划招商银行信用卡中心金融科技大赛、百度 PaddlePaddle AI 大赛、携程大数据竞赛、同盾声纹识别建模大赛等。和鲸社区DF 竞赛(DataFountain)是北京数联众创科技有限公司旗下品牌,是国内领先的数据竞赛服务平台和数据智能协同创
48、新平台,旨在围绕协作、数据、知识、技能形成大数据爱好者的专业成长链路,为数据科学家及产业赋能。作为国内领先的数据智能协同创新平台,DF 平台打造了一个“大众创业、万众创新”的在线空间,为数据科学及人工智能专业人士提供基于云端的在线协同创新工作环境及人才服务。结合 DF 平台资源及产品优势,通过数据开放、场景需求征集、技术人才汇聚、应用成果转化的路径,持续助力人才升级及产业创新。DF 竞赛举办的代表性赛事包括:2019DCIC 数字中国创新大赛、2018 CCF 大数据与计算智能大赛、京东 JData 算法大赛、2018“平安产险数据建模大赛”、2021 CCF 大数据与计算智能大赛等。DF竞赛
49、2022 人工智能与数据科学竞赛白皮书 27人工智能与数据科学竞赛白皮书20222.企业自建平台阿里集团于 2014 年正式推出“天池”大数据科研平台,该平台基于阿里云的开放数据处理服务 ODPS,面向学术界开放海量数据(阿里数据及第三方数据)和分布式计算资源,旨在打造“数据众智、众创”第一平台。平台业务包括:天池大数据竞赛、数据实验室、开放式教学、数据人才认证。天池平台基于阿里集团旗下众多企业的真实业务需求与海量业务数据,依托阿里云分布式计算资源,长期举办各类数据科学竞赛,2014 年至今,天池成功运作 400 余场数据科学竞赛,覆盖 98 个国家和地区的 60 万数据开发者,成为国内最知名
50、的数据科学竞赛平台之一。华为云大赛是华为云开发者平台打造的开发者综合赛事平台,其竞赛内容涵盖机器学习、软件开发、硬件开发、系统开发、工业互联网等众多方向。华为云赛事平台以华为集团产品需求为导向,设立 DevCloud 软件编程赛、黑客马拉松、软件精英挑战赛、华为开发者大赛等诸多赛道。华为云赛事平台严格来说并非数据科学竞赛平台,而是综合性开发者赛事平台,并且只为华为集团自身业务服务。然而由于华为集团的技术优势与行业影响力,华为云赛事平台仍然被数据科学竞赛选手视为重要的数据科学竞赛平台之一。飞桨 AI Studio 是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费 GPU
51、 算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。分设飞桨大赛、飞桨常规赛、新人练习赛等赛事分类。飞桨 AI Studio 以深度学习工程师培训与认证为主要目标,竞赛则作为人才培育与检验、业务众包的重要手段。与华为云竞赛平台类似,飞桨 AI Studio 主要承担百度各事业部以及百度集团深度参与的竞赛需求。平台认证体系受到百度集团认可,因此成为国内重要的数据科学竞赛平台之一。天池华为云飞桨AI Studio2022 人工智能与数据科学竞赛白皮书 28人工智能与数据科学竞赛白皮书20221.1 学历特征参赛者学历分布图1.参赛者身份特征三、参赛者参赛者作为人工智能与数据科学竞赛的重要
52、组成部分,其特征对于理解和举办人工智能与数据科学竞赛具有重要意义。人工智能与数据科学竞赛的人才门槛相对较高,在学历背景方面,参赛者群体中 60%左右为硕博人才,本科人才占比 37.88%.在人才专业情况方面,其中 87%左右的人工智能与数据科学竞赛人才来自于理工科背景。由于经济管理学科与数据密切相关,诸多赛题来自金融领域,因此还有部分竞赛人才来自经济学、管理学专业。1.2 职业特征在行业分布方面,人工智能与数据科学竞赛是产学结合的典型项目,学生是竞赛人才的主力,占比约 64%,在职人员多数将人工智能与数据科学竞赛作为技能练兵场和兴趣俱乐部,主要人群为 IT 及相关行业的工作者,以及从事金融、咨
53、询等与数据相关方面的工作者。1.3 地域特征人工智能与数据科学竞赛参赛者地域分布与高新科技产业分布高度重合,五成以上人工智能与数据科学竞赛人才集中在京津冀、长三角、珠三角三大都市圈,广东省竞赛人才最多,长江中游与成渝地区整体人才分布集中度较高。在城市维度上看,一线城市北上55.43%55.43%硕士5.33%博士0.48%高中及以下0.95%专科37.81%本科37.81%图3-6 2022 人工智能与数据科学竞赛白皮书 29人工智能与数据科学竞赛白皮书20222.参赛者诉求广深依然领跑,而南京、武汉、杭州、成都作为新一线城市的代表,也汇聚大量人工智能与数据科学竞赛人才;这前八名城市拥有的人工
54、智能与数据科学竞赛人才总和超过全国的 36%。根据参赛者的典型特征进行归类总结能够帮助我们更好地进行赛事设计,并分析研判未来赛事的发展方向。在对参赛者进行分类之前,我们首先需要明确参赛者有哪些参赛动机与持续参赛的意愿。本文借鉴了 Datawhale 在 2020 年进行的数据竞赛人才特征调查 以 及 Carmeli&Schaubroec(2007)自 我 效 能 感 的 测 量 量 表,Koh&Kim 以 及SunY,Fang Y KaiHl(2012)对于学习成长动机、身份构建和社区感的内部满足感量表,以及王彦杰(2010)和 Jhannes(2014)对于外部动机、外部刺激和外部效价的外部
55、报酬感测量,将参赛者参赛动机分为自我效能感、内部满足感、外部报酬感三部分。图3-7 城市分布热力图图3-8 参赛者动机测量量表上海南京合肥济南梅州安庆贵阳连云港青岛黄冈洛阳温州潍坊濮阳绵阳茂名衡水遂宁长治安阳宜宾昆明晋中运城阜阳汕头沈阳苏州萍乡东莞湛江绍兴邯郸宁波无锡石家庄佛山扬州赣州郑州南宁南阳长沙厦门天津太原福州南昌西安深圳成都武汉重庆北京广州杭州2022 人工智能与数据科学竞赛白皮书 30人工智能与数据科学竞赛白皮书2022自我效能感自我效能感指的是个体结合自身的实力和任务难度,对于完成任务目标的自信程度。故在参与数据竞赛的人才中其自我效能感会随着持续参与的结果不断进行调整。具有高水平自
56、我效能感的选手,在竞赛中更可能相信付出努力,可以获得满意的绩效,也即高自我效能感的人才容易形成较高的期望估值并持续的付出和留存。根据数据调研统计发现,竞赛的排名表现和参与次数都与自我效能正相关,参与次数越多或排名表现越排在前列自我效能感就越高,越有持续参与意愿,且参与次数(均分 8.499)相对排名表现(均分 8.272),对于自我效能的影响更高。内部满足感内部满足感指不是为了一些可感知可分离的结果做事,而是满足内心的需求。拥有诸如乐趣、挑战感、归属感等内部动机的使用者更能够持续参与和使用。本年鉴中持续参与动机中的内部满足感动机分为学习成长、身份构建、虚拟社区感三个方面。学习成长是指人才在参与
57、数据竞赛中,能够学习或提高的相关技能,继而能力提高会引发参与者的持续参与意向。身份构建是指通过在竞赛中,释放自己的创造力和想象力,图3-9 排名表现与参赛次数的自我效能分布2022 人工智能与数据科学竞赛白皮书 31人工智能与数据科学竞赛白皮书2022来证明自己能力并进一步构建自己的身份角色,也称自我肯定。身份构建和自我肯定能够使得竞赛选手产生沉浸的体验,保持持续的参与意愿和行为。虚拟社区感会使其对社区负有责任感,从而在竞赛平台中想要持续的参与。竞赛选手在社区中互相支持建立自己的角色并且认同别人的身份以及产生信任,会产生社区归属感,进而有持续参与的意愿。根据数据调研统计发现,竞赛的排名表现和参
58、与次数都与内部满足感正相关,参与次数越多或排名表现越排在前列内部满足感就越高,越有持续参与意愿。参与数据竞赛的选手对于竞赛的内心满足感都很高,意愿均分达到 9.036,基本都会具备持续参与竞赛意愿,且参与次数(均分 9.254)相对排名表现(均分 9.048),对于内部满足感的影响更高。外部报酬感外部报酬感指能够间接地得到内心满足的需求,是一种可感知可分离的事务,例如竞赛奖金,工作机会等,越高的奖励的设置,越能增强持续参与意愿。数据竞赛平台具备将知识进行变现的有偿属性,人才对于获取报酬的预期是激励和吸引他们参与的十分重要的因素。图3-10 排名表现与参赛次数内部满足感2022 人工智能与数据科
59、学竞赛白皮书 32人工智能与数据科学竞赛白皮书2022根据数据调研统计发现,竞赛的排名表现和参与次数与外部报酬感正相关,参与次数越多或排名表现越排在前列外部报酬感就越高,越有持续参与意愿。且参与次数(均分8.839)相对排名表现(均分 8.720),对于内部满足感的影响更高。结合前述研究的结果,我们对 20 位参赛者进行了深度访谈,将自我效能感、内部满足感与外部报酬感具化为奖金名誉、就业创业、学习提升、社交活动四类赛事中常见的基本要素。四种要素相互交叉,构成不同的参赛者诉求。与前述结果相比,这四种参赛者诉求对赛事设计与运行更具有实际指导效果。图3-8 四种典型参赛者诉求奖金名誉诉求就业创业诉求
60、学习提升诉求社交活动诉求图3-11 排名表现与参赛次数外部报酬感2022 人工智能与数据科学竞赛白皮书 33人工智能与数据科学竞赛白皮书20222.1 奖金名誉诉求以奖金激励和名誉获取为核心诉求的参赛者以在校学生和职场新人为主,可支配时间充裕,技术实力较高,有冲击奖金和 TOP 排名的精力与实力,这些参赛者也是各大竞赛前排选手的重要组成部分。2.2 就业创业诉求以就业创业为核心诉求的参赛者求具有很强的针对性,主要参与某类垂直领域的专业赛事,如金融、科技、生物医药等。其参赛目的以获取主办单位提供的入职机会或创业政策为主,具有较高的完赛意愿与技术实力,是满足主办方办赛诉求的核心群体。2.3 学习提
61、升诉求以获取数据和技能实训为核心诉求的参赛者主要由数据科学初学者为主,受限于数据获取困难和实训机会匮乏而选择参赛,是各大赛事中占比最高的参与者。这些参赛者技术实力较弱,但学习意愿强,有机会发展为竞赛核心选手。2.4 社交活动诉求以社交活动为核心诉求的参赛者数量少,影响力大。在竞赛社区加速发展的环境下,部分竞赛深度选手开始组建交流社区、俱乐部、自媒体平台,成为竞赛领域意见领袖,对竞赛运营招募与舆情风向施加巨大影响力。优化竞赛 KOL 的竞赛体验是提升竞赛运营效果的重要手段。人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2
62、022人工智能与数据科学竞赛赛事基本架构Basic Framework ofAI&Data Science Competition04AI&DATA SCIENCE COMPETITION2022 人工智能与数据科学竞赛白皮书 35人工智能与数据科学竞赛白皮书20221.1 组织架构一、方案设计1.赛事方案人工智能与数据科学竞赛的赛事方案设计主要指比赛的背景和机制设计,确定赛事基调,指导赛事落地,包括组织架构、赛事类型、赛程赛制、概念包装、赛事奖项等内容。人工智能与数据科学竞赛的组织架构通常分为三个层级:指导单位、主办单位、协办单位。指导单位在政府背景赛事中出现较多,主要为主办单位的上级主管部
63、门,级别较高的指导单位能够提升赛事级别与社会影响力。主办单位主要为竞赛组织的实际决策单位,也是竞赛的实际发起单位。协办单位包括竞赛的运营单位、赞助单位以及其他相关单位。1.2 赛事类型目前常见的人工智能与数据科学竞赛主要分为算法赛与应用赛两类。算法赛是以算法技术为核心,针对具体问题设计具有客观可量化评分标准的赛题,通过算法搭建与大量 数据科学竞赛架构图谱 方案落地方案设计赛事方案传播方案技术方案组织架构 赛事类型赛制设计 赛程设计概念包装 奖项设置传播形式 传播渠道传播节点 传播内容赛题设计 平台架构技术部署平台部署定制化开发参赛系统 评分系统在线实训系统前端展示开发后端功能点开发赛事运营赛事
64、招募选手运营专家运营媒体发布 社群招募定向邀约 其他途径选手留存 在线答疑线上/线下培训专家邀约 规则宣讲专家接待活动运营招募活动 促活活动宣传活动 其他活动线下赛事成果手册新闻通稿会议/论坛项目孵化官方公告成果呈现运营维护价值转化图4-1竞赛赛程视赛制而定,在多轮赛制中初赛时间最长,通常占赛事全程的一半;复赛时间较短,供参赛者进行参赛方案优化;决赛时间与复赛时间类似,供参赛者进行方案的进一步优化。一般来说,人工智能与数据科学竞赛的总体赛程在 3 个月左右。2022 人工智能与数据科学竞赛白皮书 36人工智能与数据科学竞赛白皮书2022图4-2 应用赛与算法赛特征对比数据分析解决具体问题的人工
65、智能与数据科学竞赛形式。应用赛是指以实际需求为核心,探索算法框架与实际需求的创新性结合方式,同时综合商业模式、市场需求等因素的人工智能与数据科学竞赛形式。算法赛以数据分析技术为核心,采用机器客观评分的考核方式,注重参赛者个人技术实力的较量,有助于实现技术人才选拔。同时,算法赛需要大量数据作为支撑,是促进公共数据开放与应用的有效途径。应用赛以创新应用方案为核心,采用专家主观评分的考核方式,综合考量参赛方案在专利技术、市场需求、商业模式等多维度的价值,有助于选拔优质创业团队与解决方案。同时,应用赛对主办方提供的数据量要求较低,赛事筹备的技术难度较低。同时,由于大数据技术与人工智能的深度绑定,目前也
66、出现了许多以仿真、机器人为形式的人工智能与数据科学竞赛。1.3 赛程赛制人工智能与数据科学竞赛大多为开放竞赛,面向社会大众或特定范围征集参赛者,如专门面向在校学生、在职人士、特定领域从业者等,这类赛事以初赛-决赛的二轮赛制为基础,通过初赛过滤不符合技术要求的参赛者,通过决赛进行最终排名。在两轮赛制的基础上衍生出了初赛-复赛-决赛的三轮赛制,利用复赛对初赛晋级的选手进行更精准的筛选。与开放式竞赛相对的是定向邀请赛,由主办方邀请参赛团队,这类赛事赛制较为自由,参赛团队较少,可以采用多轮赛制,也可以采用一轮赛制。应用赛算法开发技术评分维度参赛者数据需求技能要求综合考察能够支撑算法开发的足量数据不限算
67、法运行客观指标专家主观评审个人开发者为主企业团队为主算法赛2022 人工智能与数据科学竞赛白皮书 37人工智能与数据科学竞赛白皮书20221.4 赛事奖项人工智能与数据科学竞赛的主要奖励机制包括奖金、获奖证明、政策扶持三方面。作为人工智能与数据科学竞赛最为直观、直接的激励机制,奖金数量与分配是影响参赛者竞赛选择的重要因素,奖金与招募效果存在正相关关系。随着近年来单场赛事规模扩大、赛题数量增加,赛事总奖金水涨船高,2022 年部分赛事奖金总额超过 300 万元。获奖证明是在校学生群体较重视的赛事奖项,含金量较高的赛事获奖证明能够为其就业提供便利。政策扶持包括政府类赛事中的项目孵化政策、人才引进政
68、策与企业赛事中的就业支持政策。政府赛事主办方为获奖团队提供场地支持、政策支持与资本对接,为获奖人员提供落户、就业便利;企业赛事主办方为优秀选手提供面试直通车或入职邀请。优厚的政策扶持能够弥补奖金缺口,提升赛事吸引力与社会评价。2.传播方案赛事传播是人工智能与数据科学竞赛运营过程中的重要环节,一方面良好的赛事传播能够吸引更多参赛者,从而提升赛事水平;另一方面精准的赛事传播能够有效扩大赛事的社会影响力,助力办赛方的品牌建设。在面向社会大众的一般赛事中,传播方案主要包含两方面的内容:赛事招募信息传播与赛事成果传播。赛事招募信息传播是赛事整体传播方案中最重要的部分,合理配置赛事传播渠道、设计赛事传播内
69、容是实现良好赛事招募效果的前提。目前较为常见的赛事招募信息传播方式包括自媒体广告投放、社群传播、垂类平台广告投放等。赛事成果传播是主办方品牌传播与成果展示的重要途径,能够向社会公众与领域内人士传递品牌价值。常见的赛事成果传播方式主要以新闻媒体传播与垂类自媒体传播为主。图4-3 赛制时长占比赛事招募/初赛A榜阶段初赛B榜阶段复赛决赛典型三轮赛制中各阶段时长占比60%10%20%10%2022 人工智能与数据科学竞赛白皮书 38人工智能与数据科学竞赛白皮书20223.1 竞赛环境搭建方案人工智能与数据科学竞赛需要线上赛事运行环境,主要表现为赛事网站以及相应的竞赛系统。其中竞赛系统又分为作品提交系统
70、、主客观评分系统、赛事排行系统、在线编程系统、算力设施等。3.2 赛题与评分算法设计方案办赛过程中,赛题是最为关键的一环,直接关系到办赛需求的满足、赛事招募能力与赛事整体效果。对于政府机构而言,赛题设置主要涉及数据开放、问题解决与项目招募。对于企业而言,赛题设置主要涉及人才招募与算法提升。在政府办赛过程中,由于涉及数据开放的效果,因此吸引尽可能多的参赛者是一个重点。同时又要考虑到提交作品的质量与解决问题的效果,因此需要做到赛题难度与受众范围的平衡。需要有经验的算法专家参与到赛题设计当中,即使办赛者已经具有相对完整的赛题设计思路,同样需要经验丰富、技术水平较高的算法专家进行赛题优化,以及跟随赛事
71、进程,不断关注赛事进行的最新反馈。在企业办赛过程中,由于涉及到问题解决以及人才招募的需求,因此赛题难度是一个重点。将赛题难度限制在合理范围内,才能更加精准的筛选适合企业的算法人才。另外,需要算法专家调节赛题评价指标,使赛事评分更加准确的体现参赛者作品的实际水平。3.技术方案人工智能与数据科学竞赛以线上赛为主,专业的技术支持是赛事筹备的必要条件。从赛事运行的角度,赛事技术方案可以分为竞赛环境搭建方案、赛题与评分算法设计方案两大类。图4-4 典型算法赛评分规则-基于声纹的人声分离挑战赛 2022 人工智能与数据科学竞赛白皮书 39人工智能与数据科学竞赛白皮书2022二、技术部署1.平台部署办赛过程
72、中必然需要赛事网站、竞赛系统、在线算力与服务器。在算法赛中,参赛者需要将作品上传赛事网站或依靠赛事网站系统提供的在线编程功能进行方案开发,在赛事后台进行评分,并将评分反馈给参赛者。这一整个过程都需要有功能完善的赛事平台与足以匹配赛事需要的云计算资源。2010 年 Kaggle 竞赛平台在墨尔本成立,标志着人工智能与数据科学竞赛商业化的成功,以 Kaggle 平台为代表的 Kaggle 竞赛模块也成为了竞赛平台的标准技术架构,主要包括参赛系统、在线实训系统与评分系统三大部分。参赛系统为参赛者提供报名、组队、作品提交等基本功能,主流竞赛平台也包括评论分享、社区交流等功能。在线实训系统是目前参赛算法
73、开发的主流方式,支持参赛者在竞赛平台的网站直接进行代码开发与算法运行,一方面降低了不同参赛者所拥有的算力资源对赛事结果的影响,提升比赛结果的公平性;另一方面可以通过云端环境保障赛事数据的安全性,避免敏感数据外泄。评分系统能够将赛题测试集数据导入选手提交的算法模型,并自动计算模型准确性与运行效率等赛题评分的关键指标,为参赛算法打分并生成实时排行,根据评分规则全自动客观评分维护赛事结果公正。近两年,云计算逐渐成为人工智能与数据科学竞赛的主流技术应用。为赛事赛题匹配相应的云计算资源是举办人工智能与数据科学竞赛优先考虑的问题之一,其要求包括适当的性价比、稳定性、算力匹配等。适当、稳定的云计算资源可以提
74、升参赛体验、降低赛事运营难度、避免各类问题,良好的性价比可以降低赛事成本,实现资金合理化分配,并提升主办单位复办意愿。另外,成熟的赛事系统能够有效维护赛事数据安全。随着数据在企业运营中的重要性逐渐增加,数据安全逐渐成为办赛过程中主办方最为关心的问题之一,如何在保障数据内容完整传递到参赛者手中完成竞赛的同时,避免敏感数据外泄,成为人工智能与数据科学竞赛技术筹备阶段最为重要的问题。赛事数据需要在脱敏后应用于赛事运行,对于保密级别更高的数据,脱敏处理不足以满2022 人工智能与数据科学竞赛白皮书 40人工智能与数据科学竞赛白皮书2022在数据传输过程中采用 TLS 安全协议实现系统间数据传输的完整性
75、保护,防止传输数据被嗅探和窃听。在服务器之间传输数据、用户终端访问应用系统之间都支持通过支持安全传输协议与传输信息的加密实现传输安全。足保密性需求,数据传输过程同样需要采用完善的加密手段与平台设计,使数据保留在线上,而不会被参赛者非法下载转作他用。根据具体赛题需求和数据敏感度的不同,部署了数据科学协同平台与计算资源的云端竞赛环境可以选择将赛题数据挂载在工具内,禁止参赛者将数据下载至本地,防范数据泄露的风险。同时控制竞赛平台用户访问权限,防止未授权用户非法使用系统,以身份识别、登录次数限制、账号验证、口令验证等方式严控用户数据访问权限、界定访问范围。传统竞赛传输方式云端竞赛传输方式参赛者报名云端
76、竞赛采用云端创建项目的方式下载数据集至本地调用训练集数据本地操作,数据集内容完全暴露算法模型搭建调用测试集数据返回测试结果优化模型上传结果,获取成绩参赛者报名获取项目权限创建项目云端查阅训练集数据算法模型搭建提交模型至评分服务器服务器运行模型返回测试结果优化模型提交模型,获取成绩云端操作除训练集数据外完全不可见取代本地创建项目,避免数据下载操作图4-5 竞赛数据传输方式对比2022 人工智能与数据科学竞赛白皮书 41人工智能与数据科学竞赛白皮书20222.定制化开发在数据储存中对数据库中的结构化业务敏感信息采用高强度数据库口令保护,减少数据库口令被破解的风险;对存放在数据库中的敏感信息采取非对
77、称加密,保证非法用户即使进入数据库也无法获取有用信息。将非结构化数据如文本、音频、视频通过加密后存放在文件系统,即使非法用户获取到文件也不能直接读取文件的内容。2.1 前端展示开发前端展示开发指赛事网站页面视觉效果和交互设计的开发,如网站落地页设计、交互按钮设计、详情页入口设计等,需要网页 UI 设计与前端开发的配合,是形成独特赛事品牌的基础环节。2.2 后端功能点开发后端功能点开发包括与前端展示的内容对应的功能点以及特殊的赛事系统功能,如特殊的数据加密方式、数据传输方式、评分方式、在线答题、代码评估等传统赛事模块之外的特殊功能。在赛事基本需求不变的情况下,赛事后端功能点可以复用,以缩减赛事平
78、台部署成本,对于新的赛事品牌而言,由于缺乏赛事平台搭建经验,往往需要依托于成熟的赛事平台进行定制化开发,因此定制化的后端功能点开发是新赛事的必要环节。赛事主办机构和办赛目标的多样化导致不同赛事的差异逐渐扩大,以 Kaggle 模式为基础的标准人工智能与数据科学竞赛模块(主要包括参赛系统、在线实训系统与在线评分系统)已经不足以满足复杂化的赛事需求,因此定制化开发几乎成为国内绝大部分赛事的硬性需求。定制化开发主要包括两方面:前端展示开发与后端功能点开发,在视觉展示、交互体验、功能特色、赛事流程等方面形成各自的赛事特色,以满足不同主办方的办赛需求。图4-6 典型落地页展示雪浪算力开发者大赛赛题切换功
79、能快捷浏览功能报名跳转功能跟随浮窗功能2022 人工智能与数据科学竞赛白皮书 42人工智能与数据科学竞赛白皮书2022三、赛事运营人工智能与数据科学竞赛的流畅运行需要稳定合理的赛事系统与高效精准的赛事运营相结合,近年来人工智能与数据科学竞赛的形式逐渐复杂化,附属赛事活动越发多样化,使数据科学赛事从数据与选手的链接转变为主办方、数据、选手、专家、活动相关方等多方参与的有机整体,这些特征为赛事运营带来了更大的挑战。1.赛事招募除极少数与参赛者有天然强关联的主办方(如高校)外,大多主办方与潜在参赛者具有距离。成熟的招募手段是办赛效果与赛事完成度达成的关键,利用适当的运营手段增强赛事粘性,引导参赛者走
80、完从报名到完赛的全流程,提高完赛/报名比。同时合理的招募方式也是控制赛事成本的重要手段,筛选优质高效招募渠道,提升招募成本投入产出比,并维系参赛者忠诚度,提升系列赛事复参率。另外,在赛事进行过程中,往往会出现各种各样意想不到的问题,轻则引发部分选手的不满、重则导致赛事停摆、大批选手退赛,因此办赛还需要专人进行赛事运营(非计算机技术手段),这对于赛事顺利进行、赛事目标高效达成以及打造口碑良好的赛事品牌具有重要作用。2.选手运营选手运营是赛事运营的主要环节,由于赛事形式逐渐复杂,选手在参加竞赛的过程中经常遇到赛事规则不明确、赛题要求不清晰、赛事系统故障、赛题数据不完整等问题,这些问题一方面阻碍了赛
81、事的正常运行,需要专人负责收集选手的反馈信息,并交由相关技术人员进行修改更正;另一方面可能引发参赛者不满情绪,阻碍赛事正常进行甚至引发负面舆论,对主办方社会形象造成不利影响,需要运营人员及时进行公关安抚,降低负面舆论声浪,维护赛事良好声望。3.专家运营在近年来的赛事实践中,客观评分与专家主观评审相结合是绝大多数赛事决赛的主要形式,尤其在应用赛中,专业水平高、行业声望大的专家评审是维护赛事结果公平合理的重要因素。因此,专家评审的邀请与接待也是人工智能与数据科学竞赛运营的重要工作之一。2022 人工智能与数据科学竞赛白皮书 43人工智能与数据科学竞赛白皮书20224.活动运营人工智能与数据科学竞赛
82、逐渐成为主办方品牌生态的组成部分,与赛事相关的附属活动成为赛事设计的重要组成部分。活动运营与线上赛事运营不同,涉及线下活动策划、运营、现场搭建、组织协调等会务类工作,需要具有会务从业经验的人员组织实施开展。5.社区运营人工智能竞赛具有天然的社区效应,越来越多数据科学人才选择参赛以实践理论技能,并在过程中进行持续的协作、交流和讨论,形成了具有专业属性的社区雏形。以全球最大的人工智能竞赛平台 Kaggle 为例,作为全球最大的数据科学人才社区,在与不同机构组织合作举办人工智能竞赛之外,Kaggle 还以数据集、开源代码项目分享等丰富的内容吸引人才汇集,在其数据科学的成长发展之路上不断进行助力和赋能
83、,从而使得海量处于不同成长阶段的专业人才均对其产生了强大的粘性。数据科学社区集聚的人才来自不同行业不同职能,能够及时响应复杂多元的竞赛需求,为人工智能竞赛的成功举办提供了复合能力的全方位支持。活跃的互动交流也在社区上不断沉淀着技术先进、应用成熟的真实案例,突破固有认知的创新源源不断地发生,进而为人工智能竞赛基础上的数字化创新提供了底层支持。图4-7 活动运营实例第二届中国移动“梧桐杯”大数据创新大赛决赛活动2022 人工智能与数据科学竞赛白皮书 44人工智能与数据科学竞赛白皮书2022四、赛事成果呈现线下赛事是人工智能与数据科学竞赛的常见选择,近三年来由于新冠疫情,线下赛事筹备难度较大,疫情封
84、控解除后,线下赛事数量有望持续增加。线下赛事可以分为两类:线下答辩与线下对抗。线下答辩主要提供作品说明和答疑解惑两种功能,这两种功能在应用赛中更加明显。应用赛通常不适用客观可量化的评价指标,以评委主观评分为主要评审方式。在这种评分模式下,PPT 与产品/方案说明文档并不能全方位展示产品/方案的实用性和创新性,线下答辩过程中评委与参赛者的问答互动能够有效改善评委对产品/方案的认知,并消除误解和疑义。在算法赛中,通常以算法模型的准确性、运行效率、运行时长等客观可量化标准作为评分基准,线下答辩的重点更多地集中于模型的创新性、通用性等方面。同时专家评审的有效建议也可以帮助参赛者提升模型效率,拓宽设计思
85、路,促进参赛者技术成长。1.线下赛事现场对抗是创新型的线下竞赛方式,常见的现场对抗有攻防对抗、黑客马拉松等。现场对抗要求参赛者在短时间内依靠有限资源呈现最优的作品成果,对参赛者实力考验较大。攻防对抗攻防对抗通常用于涉及安全的赛题当中,参赛者被分为进攻与防御两组,根据赛题要求进行分组对抗,以淘汰制或积分制方式进行评比。攻防对抗对赛题、数据、组织能力、参赛者水平都有较高要求,组织成本较高。1.1 线下答辩1.2 现场对抗图4-8 现场对抗赛事实例“谋略方寸联合智胜”智能博弈挑战赛2022 人工智能与数据科学竞赛白皮书 45人工智能与数据科学竞赛白皮书2022成果手册常见于应用赛,应用赛中赛事成果以
86、方案为主,且通常涉及专利技术,单一的成绩排名难以体现多样化的赛事成果产出。成果手册篇幅限制小,能够充分体现主办机构、参赛团队、参赛方案、相关专利技术等内容,在线下活动中进行发放,能够扩大赛事成果传播效果,促进参赛方案展示效果,提升赛事方案落地的可能性。黑客马拉松黑客马拉松是程序/产品设计赛事的常见组织方式,要求参赛者在指定时间内(时间较短,通常为 12/24/36/48/72 小时),在指定场地内完成作品设计、程序编写、运行测试、程序优化、作品提交。这种方式是对参赛者知识积累、技术沉淀、设计思路的挑战,这种竞赛模式主要针对人才发掘,在一定程度上牺牲作品水平的同时,挖掘更具技术实力的人才。实时刷
87、榜实时刷榜是黑客马拉松在人工智能与数据科学竞赛中的一种延伸探索,其基本组织方式与黑客马拉松类似:组织参赛者在限定场地、限定时限内完成竞赛任务。不同的是黑客马拉松往往采用现场发布赛题任务、现场设计方案、现场编程的方式进行,实时刷榜则作为一场大型赛事的决赛,让参赛者携既有方案、模型现场进行优化,通过大屏实时展示成绩营造紧张的竞赛氛围,激发参赛者潜力。2.成果手册赛程关键节点的新闻通稿是绝大部分赛事,尤其是政府背景赛事的标准流程。一方面向业界展示赛事进程与赛事成果,另一方面对于提升主办机构社会影响力,提升主办机构品牌舆论权重等具有重要作用。3.新闻通稿人工智能与数据科学竞赛起源于学术会议,首次人工智
88、能与数据科学竞赛是 1997 年由ACM(国际计算机学会)分支机构 SIGKDD(数据挖掘及知识发现专委会)发起的第一届 KDD CUP,迄今共举办了 25 届,被誉为数据科学“世界杯”。人工智能与数据科学竞赛与学术会议和商业论坛具有深厚渊源,现在仍有许多学术会议和商业论坛将竞赛作4.会议/论坛2022 人工智能与数据科学竞赛白皮书 46人工智能与数据科学竞赛白皮书2022赛事方案孵化落地是赛事成果转化最直接的方式,但落地难度较大。成功的赛事项目孵化需要多方因素互相配合。常见阻碍赛事项目落地的因素包括方案因素、政策因素、资本因素等。在应用赛中,参赛团队包括企业团队、大学生团队、创业团队等,各类
89、方案侧重点不同,难以实现专利技术、创意性、商业性、落地性的有效结合,尤其是大学生团队方案往往缺少成熟可行的商业模式,难以落地。国内较为成功的项目孵化赛事是“浙江数据开放创新应用大赛”,大赛一等奖作品山乡共富小助手融合了民宿相关信息、民宿周边人文自然信息、农特产品信息等 9 类公共数据,破解了民宿产业区域发展不均衡、规模不经济、产业链不完整、带动力不强等问题,当前已在安吉县进行试点,接入民宿 829 家,客房 1.1 万间,床位 4.9 万张。大赛一等奖作品安迅应急救援产业互联,迭代升级为现在的“救在身边”应用,已实现从台州 512 公里向全省 4158 公里的高速运营覆盖。海洋“清道夫”船舶水
90、污染防治应用让处置企业提高效益 20%,大幅降低政府治理费用 80.6%,在全国 2520 个万吨级泊位推广;“反诈一哥”应用 已精准宣防易受骗人员及预警潜在受害人381972 人次,拦截劝阻案件 4143 起,防损金额 1.3 亿元;碳效码应用为湖州全市 3700 余家规上工业企业“精准画像”。为重要的附属活动,将赛事线下决赛作为活动的环节之一,借助会议和论坛本身的行业影响力,提升赛事影响力和赛事成果的展示传播效果。如第三届中国工业互联网大赛作为全球工业互联网大会的重要组成部分,其颁奖仪式直接在大会现场进行,并将赛事成果手册现场发放,将赛事成果直接传递到业界人士手中,实现精准触达,提升赛事方
91、案落地空间。5.项目孵化图4-9 “赛事+论坛”实例“工业互联网+精益生产”专业赛颁奖典礼在全球工业互联网大会举办人工智能与数据科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022人工智能与数据科学竞赛前景展望Prospect Forecast ofAI&Data Science Competition05AI&DATA SCIENCE COMPETITION2022 人工智能与数据科学竞赛白皮书 48人工智能与数据科学竞赛白皮书2022一、平衡数字中国建设区域差异,赋能数字 政府生态发展建设数字中国是数字时代推进中国式现代化的重
92、要引擎,是构筑国家竞争新优势的有力支撑。但不同的城镇化程度、数字人才储备量、数字化建设基础,给我国不同地区间带来了巨大的地域差异。东南沿海发达地区数字化基础雄厚、技术成熟、人才充足,在数字中国建设方面具有天然优势,中西部地区长期存在数字人才流失、技术基础不足等问题,需要更多举措以实现数字中国建设的基本要求。人工智能与数据科学竞赛能够在一定程度弥补不同地区间的人才差距,因地制宜办赛以构建健全的数字生态。我国人工智能与数据科学竞赛数量的地域分布与地区经济规模高度重合,东部地区办赛数量多,办赛时间长,赛事模式成熟多样。中西部地区由于经济规模相对较小,产业结构不完善,数据密集型产业较少,数据储量不足,
93、数据人才基数小等因素,在很长时间内未能实现人工智能与数据科学竞赛的广泛举办。对发达地区而言,通过人工智能与数据科学竞赛深挖数据要素价值,探索数字技术前沿,是激发地区人才潜力的有效举措;对欠发达地区而言,人工智能与数据科学竞赛能够在短时间内实现人才聚合,释放地方数据要素潜力,向数字人才展示地区发展潜力,产生人才虹吸效应。近年来,数字化建设逐渐成为各地政府的重要工作方向,公共政务数据的收集与应用逐渐受到中西部地区政府重视。同时,工业企业数字化转型和数据密集型企业的产业迁移提升了中西部地区举办人工智能与数据科学竞赛的潜力。对于中西部地区而言,举办人工智能与数据科学竞赛具有三方面的价值:推动数据要素应
94、用与成果转化我国市场上流通的数据主要可分为政务数据和企业数据。目前,政务数据在各级政府机关的大力推动下,根据刚性制度的约束,已经实现了各级各类部门的交互、开放和共享。通过人工智能与数据科学竞赛,能够在保障数据安全的情况下向社会释放,将体制外数据人才引入数据要素流通与应用中,促进数据要素广泛应用和成果转化,充分发挥数据要素价值。填补人才缺口,加强地区人才梯度建设由于产业结构发展不均衡,教育资源分布向沿海地区倾斜等原因,数据人才缺口成为中西部地区数字化发展的重要阻碍。人工智能与数据科学竞赛以数据人才为核心,通过举办人工智能与数据科学竞赛能够在短时间内聚集全国范围内的数据人才开发算法模型或提供数据产
95、业发展方案。主办方提供的项目落地扶持政策具有一定人才吸引力,为中西部地区与数据产业创业团队创造了沟通交流的窗口。2022 人工智能与数据科学竞赛白皮书 49人工智能与数据科学竞赛白皮书2022推动数字政府建设,探索服务型政府数字建设路径增强数字政府建设力度,是创新政府治理理念和方式的重要举措,对加快转变政府职能,建设法治政府、廉洁政府、服务型政府意义重大。数字政府建设需要深度开发利用政务大数据,推进公共服务数字化普惠化,加快推动文化教育、医疗健康、会展旅游、体育健身等领域公共服务资源数字化供给和网络化服务,充分运用新型数字技术,强化就业、养老、儿童福利、托育、家政等民生领域供需对接,进一步优化
96、资源配置。人工智能与数据科学竞赛指向性的赛题设计能够协助地方政府促进政务数据的精准开发、靶向应用,赋能公共服务数字化。案例聚焦主办方 四川省大数据中心四川省第二届数智化工匠人才大赛由四川省大数据中心、人力资源社会保障厅联合组织开展,属省级一类职业技能赛事,旨在为全国和世界职业技能大赛储备优秀选手,推动数智技能人才高质量发展。赛事设置大数据与区块链两个赛道,四川户籍或在川工作人员均可参赛报名,获得一等奖的参赛选手可申报“四川省技术能手”,三等奖以上的获奖成绩将纳入全省大数据与人工智能职称申报评审业绩成果,并择优推荐参加全国技能大赛。四川省第二届数智化工匠人才大赛案例聚焦主办方 江西省大数据中心2
97、022(第三届)江西开放数据创新应用大赛以“数字创新江西 开放引领未来”为主题,面向全国高校、企业、创业团队、个人等社会各界,公开征集公共数据创新应用解决方案,促进数据要素高效流通和开发利用,激发数据要素市场活力,助力江西省双“一号工程”,为江西高质量跨越式发展作出贡献。2022(第三届)江西开放数据创新应用大赛案例聚焦主办方 国家信息中心、重庆市大数据应用发展管理局大赛立足重庆、面向全国、链接国际,将 1400G 以上政务数据开放给公众,以期实现集聚数据人才、探索数据治理、激发数据活力、创新数据应用、构建数据生态的目标。大赛设置企业、高校两大赛道,交通、气象、政策、地理、金融五大领域 11
98、道赛题,企业组聚焦数据应用场景设计,侧重政企大数据信息服务、5G 车联网环境下智能驾驶服务系统、城市交通 AI 优化控制等赛题;高校组聚焦数据技术应用创新,侧重以人为服务目标的气象大数据应用、车辆轨迹数据挖掘分析、驾驶员风险行为检测技术等赛题。(重庆)中国智慧城市数据开放创新大赛2022 人工智能与数据科学竞赛白皮书 50人工智能与数据科学竞赛白皮书20222023年2月,中共中央、国务院印发了数字中国建设整体布局规划(以下简称规划),并发出通知,要求各地区各部门结合实际认真贯彻落实。规划指出,建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。加快数字中国建设,
99、对全面建设社会主义现代化国家、全面推进中华民族伟大复兴具有重要意义和深远影响。规划提出,到 2025 年,基本形成数据要素价值有效释放,数字经济发展质量效益大幅增强,政务数字化智能化水平明显提升,数字社会精准化普惠化便捷化取得显著成效,数字技术创新实现重大突破,应用创新全球领先的新局面。同时,规划指出,要全面赋能经济社会发展。做强做优做大数字经济。培育壮大数字经济核心产业,研究制定推动数字产业高质量发展的措施,打造具有国际竞争力的数字产业集群。推动数字技术和实体经济深度融合,在农业、工业、金融、教育、医疗、交通、能源等重点领域,加快数字技术创新应用。支持数字企业发展壮大,健全大中小企业融通创新
100、工作机制,发挥“绿灯”投资案例引导作用,推动平台企业规范健康发展。人工智能与数据科学竞赛数据要素的新型应用模式与数字技术创新的平台,能够有效促进数据要素价值有效释放,提升政务数字化智能化水平,推动数字技术创新应用,或成为数字中国建设的考核指标。二、数字中国展开布局,数据要素相关竞赛 或纳入考核指标竞赛成果产出及成果落地转化是举办人工智能与数据科学竞赛的重要价值之一,但是目前竞赛中的成果转化仍然存在不足。在 2022 年举办的各类应用赛中,赛事方案转化为落地项目的比例不足 5%,绝大多数赛事方案由于自身限制、政策不足、资金缺口等原因无法落地。国家数据局的成立标志着政府将在统筹数据资源整合共享和开
101、发利用、协调推动公共服务和社会治理信息化、协调促进智慧城市建设、协调国家重要信息资源开发利用与共享等方面进一步发力,各地政府举办的人工智能与数据科学竞赛也将进一步推动赛事成果三、成果落地案例涌现,价值转化路径 逐渐清晰2022 人工智能与数据科学竞赛白皮书 51人工智能与数据科学竞赛白皮书2022从方案向应用的转化。“浙江数据开放创新应用大赛”、“数字四川创新大赛”等成果落地方面的先行者也为今后的赛事提供了借鉴的模板,展示了赛事成果落地孵化的可行路径。在竞赛成果直接落地之外,通过数据开放与数据交易平台推广宣传赛事成果也是竞赛价值落地的途径之一,如在山东省数据应用创新创业大赛中,优秀获奖作品在山
102、东公共数据开放网与“爱山东”APP 进行发布,通过官方公众平台向全社会扩散竞赛产出的数据应用方案,一方面为参赛团队提升影响力,吸引投资;另一方面为其他相关机构和个人提供思路启发与借鉴。传统人工智能与数据科学竞赛中,算法赛的评分通常以代码运行结果为主要考核指标,一般表现为选手提交的算法模型运行测试集数据后得到的结果准确率以及运行时长。比如在图片识别赛题中,选手将参赛的算法模型提交至评分系统中,由系统导入测试集数据,判断算法模型对测试集图片数据识别的准确性以及识别的总时间,并以准确率和运行时长作为主要评分维度对参赛者成绩进行排行。但在多年赛事实践中,这种评分方式的弊端逐渐显露。首先,通常长达数月的
103、模型开发时间为参赛者提供了充足的学习时长,而这种学习具有很强的针对性,泛用性低,难以体现参赛者算法开发的理论基础与综合实力;第二,部分参赛者通过与高水平选手组四、解决人才招聘痛点,利用考核操作过程 的评分系统精准评估技能图5-1 山东省数据应用创新创业大赛成果在山东数据交易平台展示2022 人工智能与数据科学竞赛白皮书 52人工智能与数据科学竞赛白皮书2022小规模、标准化的人工智能与数据科学竞赛可能成为未来的新型竞赛趋势。一般来说,人工智能与数据科学竞赛通常由省市政府、大型企业和科研机构举办,具有规模大、成本高、定制化的特点,依靠差异化的赛事设计和规模效应吸引更多数据人才参与,扩大赛事成果产
104、出。经过多年发展,人工智能与数据科学竞赛领域已经形成了标准化、模块化、可复用的办赛模式,这为个人竞赛提供了物质基础。目前 DataCastle 人工智能与数据科学竞赛平台推出了“DC 教学赛”服务,面向高校教师,提供小规模办赛服务,协助高校教师提升教学效率,为教学成果检测提供创新模式。“DC 教学赛”这类小规模竞赛采用竞赛平台成熟的标准化赛事系统,筹备成本与运营成本低,能够快速开展,长期复用,有望成为高校教学的高效辅助工具。五、科研教学为微型赛事提供落地场景队参赛的方式取得了与自身技术能力不匹配的成绩,给主办方的人才甄别与筛选造成了困难,同时也降低了人工智能与数据科学竞赛奖项的含金量和社会认可
105、度;第三,传统赛事的赛程长,效率低,经过数月的比赛仍然难以筛选出符合主办方要求的参赛者,降低了赛事效果。为弥补传统评分方式的不足,同时应对企业人才招募扩大化的需求,注重过程的考核方式逐渐受到重视。如通过限时在线答题或编程的方式,要求参赛者在短时间内完成赛题要求或对应的算法开发,虽然赛题综合难度有所降低,但能够更好地考察参赛选手的理论基础与技术实力,规避部分作弊手段,提升人才甄别效率。AI 技术的发展与在线编程技术的成熟为多样化的过程考核提供了探索空间。图5-2 微型赛事实例“DC教学赛”2022 人工智能与数据科学竞赛白皮书 53人工智能与数据科学竞赛白皮书2022ChatGPT 在 2023
106、 年初迅速走红,以人工智能技术驱动的自然语言处理(NLP)工具成为 2023 年人工智能应用的首个热门。以 ChatGPT 为代表的人工智能大模型在教育、医疗、办公、人机交互和 AIGC 领域的行业具有广阔的应用前景,这类人工智能大模型的开发和落地已经成为 2023 年国内人工智能领域的必然趋势。虽然我国多个机构和企业发布了一系列大模型,但未能真正走通通用大模型预训练、基于 Prompt 任务的有监督训练以及基于人类反馈的强化学习等系统性算法路径。人工智能大模型对算力设施有更高要求,目前只有少数领军企业和科研机构有实力参与,不利于发挥我国人工智能领域人才数量优势。数据科学及人工智能领域的前沿技
107、术始终是人工智能与人工智能与数据科学竞赛的热门方向。在人工智能大模型受到政府、资本、社会大众多方广泛关注的情况下,以 NLP 技术为代表的与通用人工智能关系密切的赛题方向将成为 2023 年人工智能与人工智能与数据科学竞赛的新热点。六、AIGC带来AI革命,以NLP为代表的相关 赛题将成为新一阶段热点仿真赛题是一种难度级别较高、专业性强的赛事类型,较为典型的仿真赛题如线上攻防对抗,要求参赛选手利用参赛算法模型与办赛方的算法模型进行攻击和防守轮换对抗,最早用于军事领域,如军事部署对抗、导弹防御对抗等。七、仿真赛题贴进实际问题,使用强化学习 实现最优解或成为热门赛题类型AIGC 原子能力视频理解视
108、频标签物体检测视频检索扩散模型人像识别脸部特征人体关键点手势追踪人像分割音频技术语音识别音频标签语言合成音频检索NLP 技术文本标签语义分析文本翻译多轮对话2022 人工智能与数据科学竞赛白皮书 54人工智能与数据科学竞赛白皮书2022在发展模式与应用价值之外,人工智能与人工智能与数据科学竞赛的技术基础与组织形式同样存在新的趋势。一方面,传统“数据到本地”的竞赛模式难以满足主办方日益强烈的数据安全需求,基于云端竞赛环境的“云竞赛”逐渐受到青睐。“云竞赛”要求参赛者在办赛方提供的云端竞赛系统中完成算法开发、数据调用、调参优化等竞赛全流程活动,从而规避数据下载带来的安全风险。另一方面,线下赛事环节
109、更强的竞技感与趣味性愈发受到重视,在传统的方案答辩之外,越来越多的赛事增加了如实时对抗、限时开发等更具竞技性的线下决赛活动,以进一步评判参赛者真实水平,并为赛事带来多样化的看点。八、线上赛事青睐云端环境,线下赛事 追求竞技感由于其人机对抗特征与电子游戏高度类似,且电子游戏领域 AI 模型发展迅速,尤其在平衡对抗类游戏中 AI 模型热度极高,目前也出现了以游戏为载体的仿真赛事,如OpenDILab 举办的全球首届“AI 球球大作战:Go-Bigger 多智能体决策智能挑战赛”。该比赛是面向全球技术开发者和在校学生的科技类竞赛活动,旨在推动决策智能相关领域的技术人才培养,打造全球领先、原创、开放的
110、决策 AI 开源技术生态。案例聚焦主办方 OpenDILab本次比赛由 OpenDILab(开源决策智能平台)主办,上海人工智能实验室作为学术指导,商汤科技、巨人网络、上汽集团人工智能实验室联合主办。本次赛事是一次 AI 世界的“大球吃小球”团队合作与竞技挑战赛,选手可以通过几行简单的规则代码,或是精巧的策略设计,抑或是复杂的强化学习算法来与来自世界各地的 AI 选手战斗,比赛提供基于简单规则的 AI 代码助选手快速上手,以及基于基础强化学习的 AI 模型助选手轻松上分,并采用天梯系统对各位选手的 AI 进行真实公平的评测。AI球球大作战:Go-Bigger多智能体决策智能挑战赛人工智能与数据
111、科学竞赛白皮书2022White Paper of AI&Data Science Competition 2022人工智能与数据科学竞赛年度赛事案例展示Typical Cases ofAI&Data Science Competition06AI&DATA SCIENCE COMPETITION2022 人工智能与数据科学竞赛白皮书 56人工智能与数据科学竞赛白皮书2022一、政府赛事案例山东省 主办单位 山东省大数据局 承办单位 山东省大数据中心、威海市人民政府、日照市人民政府、德州市人民政府、聊城市人民政府、济南市人民政府、枣庄市大数据局、东营市人民政府、烟台市大数据局、潍坊市大数据局、
112、济宁市大数据中心、山东数据交易有限公司 协办单位 DataCastle 数据城堡、浪潮云信息技术股份有限公司等 奖 励 3,430,000 元+政策激励山东省第三届数据应用创新创业应用赛促进山东数据创新应用工作在场景、人才、算法、产品各个方面积累、沉淀了大量资源,可助推山东省围绕“协同创新,强省惠民”主题,打造更多优秀数据应用场景。值得一提的是,根据疫情防控需要,大赛增设“数据助力疫情精准防控”赛道,及时推动获奖作品在山东省推广应用,在疫情防控中积极发挥作用,引起了很好的社会反响。本次大赛以创意赛和算法赛相结合的方式进行,11 个赛场共设置赛题 36 道,共设置 1 个主赛场、10 个分赛场、
113、大赛总奖金超三百万,共吸引全国各界 6915 名选手组成 5288 支队伍参赛,共提交了 23067 次作品。最终,主赛场有 12 支团队分别赢得各赛题一等奖,有 60 支团队获得二、三等奖。山东省第三届数据应用创新创业应用赛四川省 主办单位 四川省大数据中心、中共四川省委网络安全和信息化委员会办公室、四川省发展和改革委员会、四川省经济和信息化厅、四川省科学技术协会 承办单位 四川省大数据发展研究会、四川省大数据发展联盟、四川省大数据技术服务中心、四川省数字经济研究中心等 协办单位 DataCastle 数据城堡、浪潮云信息技术股份公司、川观智库等 奖 励 836,000 元第三届数字四川创新
114、大赛2022 人工智能与数据科学竞赛白皮书 57人工智能与数据科学竞赛白皮书2022中国人民解放军战略支援部队 主办单位 中国人民解放军战略支援部队信息工程大学 协办单位 DataCastle 数据城堡 奖 励 800,000 元信息工程大学,隶属中国人民解放军战略支援部队,担负着为国防和军队现代化建设培养信息领域高层次专业化人才的重任。学校学术气氛活跃,科研实力雄厚,成果丰硕,是军事信息领域科研创新的基地。在“太湖之光”巨型高速计算机研制、“中国天眼”FAST 超级射电望远镜建设、载人航天、探月计划、量子信息、北斗导航、国家高速信息示范网等重大专项工程中做出了突出贡献。本次举办的首届“强智杯
115、”比武竞赛活动基于真实应用场景设置赛题,旨在激励大数据及人工智能研究学者迸发思维的火花,挖掘数据价值提出新的解决方案。线下决赛活动中,大屏展示系统的主页面将轮播赛事介绍以及团队风采视频,并集中展示三个赛题的任务说明描述。同时,三个赛题的解题动态将实时呈现在副屏页面上,选手提交成功后的得分及排名将展示在实时排行榜。首届“强智杯”比武竞赛本次大赛坚持数据赋能,围绕乡村振兴、数字政府建设、数据安全防控等领域,以多赛道平行和赛会融合的方式,为大数据从业者和爱好者搭建创新创业的“催化平台、孵化平台、发展平台”,着力构建人才创新、项目孵化、应用落地的全链条服务体系,加快培育数字转型赋能新引擎,壮大数字创新
116、应用新动能,拓展数字融合发展新空间,释放数字绿色生态新活力,真正为数字四川建设探索经验、开辟道路。大赛设创新应用赛、算法对抗赛、数智化技能大赛三大赛道,共吸引 1357 名选手组成 981 支团队参与,作品提交累计 5054 次。其中创新应用赛道聚焦推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护;算法对抗赛道专注于时空预测算法与数据安全算法两大领域,着力产出具有落地场景的算法应用;数智化技能赛道分为区块链与大数据两大方向,探索区块链与大数据新的应用场景。2022 人工智能与数据科学竞赛白皮书 58人工智能与数据科学竞赛白皮书2022本届大赛以“培育数据要素市场,助力数字
117、长三角建设为主题,围绕市域一体化、数字李生古城、数据流通交易等社会发展的执占领域开四个赛道。通过对数据要素的价值控掘和应用创新,面向全球征集数字化解决方案,加快推进数据资源共享开放、高效流通和开发利用,为高质量推进长三角一体化发挥数据先行作用,注入数据创新活力。浙江省 主办单位 浙江省大数据发展管理局、浙江省互联网信息办公室、浙江省经济和信息化厅、浙江省总工会 协办单位 杭州市数据资源局、宁波市大数据局、温州市大数据局、绍兴市大数据局、湖州市大数据局等 顾问单位 浙江大学、复旦大学 奖 励 380,000 元+政策激励2022 浙江数据开放创新应用大赛以深入贯彻落实 浙江省公共数据条例为契机,
118、以“助力改革 赋能创新 智绘未来”为主题,依托浙江省一体化智能化公共数据平台,加快推进公共数据资源深度开发利用,积极鼓励企业、社会组织和个人参与数据价值挖掘和应用创新,促进数据要素高效流通,充分释放数据“红利”,赋能经济社会高质量发展,助力“两个先行”。大赛聚焦“扩中提低、高质量就业创业、强村富农,公共卫生,绿色低碳发展,社会保障”等重点领域,围绕群众所期所盼,以“小切口,大突破”挖掘培育出“更便捷、更智能、更舒适、更有温度”的重大应用,为共同富裕示范区建设和省域治理现代化提供强劲动力。2022年浙江数据开放创新应用大赛江苏省 指导单位 江苏省推进长三角一体化发展领导小组办公室、苏州市人民政府
119、、江苏省大数据管理中心 主办单位 苏州市大数据管理局、苏州工业园区管委会、苏州市大数据集团有限公司 承办单位 苏州市大数据协会、苏州工业园区大数据协会等 奖 励 400,000 元+政策激励2022长三角数据开放创新应用大赛2022 人工智能与数据科学竞赛白皮书 59人工智能与数据科学竞赛白皮书2022技术公益创新杯”是抖音、北京字节跳动公益基金会、字节跳动人工智能实验室、智能创作、智创语音、巨量算数、火山引擎共同发起的技术公益创新大赛,以“连接善意 共创美好”为理念,携手产学研各界力量,通过技术创新解决真实的社会问题,共创公益新可能。二、企业赛事案例中国移动 主办单位 中国移动通信集团有限公
120、司 承办单位 中国移动通信集团有限公司信息技术中心 协办单位 中国移动通信集团浙江有限公司、中国移动通信集团湖北有限公司、中国移动通信集团广东有限公司、卓望数码技术(深圳)有限公司、DataCastle 数据城堡 奖 励 518,000 元+校园招聘直通卡“梧桐杯”大数据创新大赛是中国移动发起,面向广大高校学生,基于其丰富数据资产和核心能力优势,从而发掘青年学生优秀大数据应用创意的年度赛事。第二届中国移动“梧桐杯”大数据创新大赛设置数智乡村、数智城市、数智交通三大赛道,面向全国高校大学生,旨在发掘培养高校学生创新能力,推动大数据产学研用深度融合,打造大数据行业新生态。本届大赛吸引来自海内外 4
121、65 所高校的 1892 支队伍,累计提交作品 10294 件,报名人数、覆盖地区数、参与高校数均创新高,更在高校中掀起一波数字创新浪潮。“梧桐杯”大赛以“竞逐数海,领航未来”为主题,通过大赛引入优秀人才和孵化投资优秀项目,持续推动产学研用融合和成果转化应用,促进教育链、人才链与产业链、创新链有机衔接,以创新引领创业、以创业带动就业,促进形成高校毕业生高质量创业就业的新局面。第二届中国移动“梧桐杯”大数据创新大赛字节跳动 主办单位 北京字节跳动公益基金会 合作伙伴 字节跳动人工智能实验室、DataCastle 数据城堡、智能创作、智创语音、巨量算数、火山引擎 奖 励 600,000 元2022
122、技术公益创新杯AI助力视障群体2022 人工智能与数据科学竞赛白皮书 60人工智能与数据科学竞赛白皮书20222022 技术公益创新杯,以 AI 助力视障群体为主题,下设视障生活、视障工作、视障相关组织赋能三大课题方向,经初赛、复赛、决赛评选出优秀方案。大赛成果将助力视障群体在工作和生活上更好地融入社会,助力视障相关组织更好发挥效能,体现技术与创新的普惠价值。本次大赛共吸引了 64 支由字节员工自发组成的团队以及 501 位来自各大高校的同学参与报名,参赛团队发挥自己的专业特长,通过技术和创意的结合,用 AI 帮视障人士寻找更美好生活的解决方案。亚马逊云科技 主办单位 亚马逊云科技 承办单位
123、DataCastle 数据城堡 奖 金 74,000 元我国遥感科学技术发展应立足国家可持续发展的战略目标,提升对重点地区研究与把控的能力。随着高分辨率、定量遥感时代的来临,遥感数据获取与信息服务能力均得到了前所未有的发展,伴随而来的是信息处理的多样性和复杂性。结合目标检测技术分析处理遥感影像关键信息成为突破发展瓶颈的重要手段。相较于传统目标检测算法,基于卷积神经网络的目标检测具有更强的学习能力和泛化能力,能够实现高效能的自然图像处理。本次大赛旨在利用人工智能技术,对像素级遥感光学影像进行充分挖掘,打造高效、实用的目标检测算法,提高遥感光学影像的分析提取能力,推动遥感影像应用赋能可持续发展的战
124、略目标。本次大赛全国各大高校、企业、科研单位均有选手参赛。参赛选手覆盖国内外 133 所高校,41 家企业;参赛选手中有来自于浙大,上交大,厦大,北航等双一流高校的高校学生,其中不乏在国内外数据领域各类竞赛中斩获大奖的佼佼者。最终来自中国科学院自动化研究所和东南大学的“望楼”团队凭借线上算法赛的精良模型与现场精彩的答辩表现成为本次大赛冠军。AI For Good-2022 遥感光学影像目标检测2022 人工智能与数据科学竞赛白皮书 61人工智能与数据科学竞赛白皮书2022华为 举办单位 华为技术有限公司 奖 金 5,000,000 元2022 华为开发者大赛由华为技术有限公司举办,大赛以“创想
125、无限”为主题,开设云底座和产业两大赛道,覆盖中国区、亚太、拉美、中东、南非、北非、东北欧、西欧八大赛区,共吸引了全球 40 多个国家和地区、15000 多名开发者、2500多支团队报名参赛。本届大赛自 6 月启动报名以来,备受各领域开发者关注,获奖作品多兼具技术创新性和商业可行性,如通过在卫星上部署云原生能力,实现星地一体化的全球野火探测系统;将 AI 技术应用于为特殊人士打造的智能交流应用;基于华为云 IoT Edge 能力的腹腔镜手术人工智能 AI辅助系统;基于 openGauss 的多模多态分布式数据库方案;基于昇思 MindSpore 的顶会论文复现等,技术覆盖了 AI、PaaS、aP
126、aaS、IoT、媒体、数据库、鲲鹏、昇腾、乾坤云等多个领域。作为华为 ICT 领域的顶级赛事,华为开发者大赛旨在面向开发者全面开放华为各产业领域的技术成果,鼓励开发者发挥想象力和创新精神,用 ICT 技术解决实际问题、创造无限价值,与华为一起引领数字未来、共建智能世界。2022华为开发者大赛科大讯飞 主办单位 科大讯飞 协办单位 DataCastle 数据城堡 奖 励 420W+现金大奖、绿色就业通道&讯飞 Offer本届大赛科大讯飞联合优质企业、知名高校、融投资机构等 53 家合作伙伴,围绕十大新兴产业开启 108 个赛道,分别设置了 72 道 AI 算法赛以及 36 道 AI 应用赛。大赛
127、共吸引来自 327 座城市的 32333 支团队,最终 352 支优秀团队脱颖而出。本届大赛充分汇聚产学研各界力量,百万级奖金池,近 60 余家创投孵化机构关注、参与,积极推进行业技术团队、创业团队、科研院所及投融资等创新资源汇聚,加速推动智能语音技术创新及科技成果产业化进程。2022 iFLYTEK AI开发者大赛2022 人工智能与数据科学竞赛白皮书 62人工智能与数据科学竞赛白皮书2022全国水下机器人大赛是由中国国家自然科学基金委员会指导举办的全国性高水平大赛,至今已成功举办五届,2022 年大赛由大连市人民政府、湛江市人民政府、鹏城实验室联合主办,本届大赛由湛江现场赛、国际线上赛和大
128、连现场赛三部分组成,赛事活动以湛江现场赛开局、大连现场三、科研机构赛事案例国家基因库 指导单位 中国生物信息学学会、广东省科技基础条件平台中心 主办单位 深圳国家基因库、鹏城实验室、深圳华大生命科学研究院 协办单位 七牛云、镭速、英特尔、哈尔滨工业大学(深圳)、深圳市猛犸公益基金会、Supermicro、英伟达 承办单位 DataCastle 数据城堡 奖 金 113,000 元随着测序技术的发展及测序数据的积累,传统常规生物信息学在处理海量生物学数据时面临着不同程度的挑战。作为“十四五”国家重点研发计划,BT 与IT 融合(生物与信息融合)是解决目前生命科学研究中数据挖掘挑战的重要手段。基于
129、此,在中国生物信息学学会(筹)、广东省科技基础条件平台中心的指导下,深圳国家基因库、鹏城实验室、深圳华大生命科学研究院发起 2022“猛犸杯”国际组学数据创新大赛,旨在为生命科学领域现有科研问题及挑战提供解决方案,引领生命科学大数据产业创新发展;同时为生命科学、医学、计算机科学等多领域的专业人才搭建跨领域、跨学科的技术交流平台,激励生命科学大数据人才的创新意识和综合技能,推进 BT 与 IT 融合(生物与信息融合)发展。2022年“猛犸杯”国际组学数据创新大赛鹏城实验室 指导单位 国家自然科学基金委员会 主办单位 鹏城实验室、大连市人民政府、湛江市人民政府 承办单位 DataCastle 数据
130、城堡 奖 励 1,000,000 元2022年全国水下机器人大赛国际线上赛2022 人工智能与数据科学竞赛白皮书 63人工智能与数据科学竞赛白皮书2022赛收官、国际线上赛全程串联的方式,突出大赛一条主线、整合资源长板做长、各具特色的运营模式。本次大赛是一次对水下机器人产业发展的创新探索,共吸引 3066 人组成 2925 支团队参赛,累计作品提交 3439 次。比赛通过竞赛的形式,在短时间内大量优秀的算法人才聚焦水下海洋信息领域,针对水下机器人发展的真实问题定向攻坚,产出了一批具有创造性和建设性的解决方案。以本次比赛为契机,更多信创人才将积极投身水下机器人技术的研发与迭代,为我国水下机器人产
131、业突破瓶颈、引领世界作出卓越贡献。中国机械工程学会 指导单位 雪浪工程院 主办单位 江苏无锡经济开发区管理委员会、中国机械工程学会 承办单位 雪浪工业软件研究院、中国机械工程学会工业大数据与智能系统分会、雪浪小镇未来园区 协办单位 无锡雪浪数制科技有限公司、华中科技大学国家智能设计与数控技术创新中心、浙江大学高端装备研究院、安徽大学、DataCastle 数据城堡 奖 励 360,000 元第一届雪浪算力开发者大赛暨 2022 雪浪工业数据智能挑战赛由雪浪工程院指导,江苏无锡经济开发区管理委员会和中国机械工程学会联合主办,雪浪工业软件研究院、中国机械工程学会工业大数据与智能系统分会、雪浪小镇未
132、来园区联合承办。本次开发者大赛以“汽车行业数字化智能化转型”为主题,开放“排产优化”和“阀体检测”两个赛题,大赛依托算力设施、数据网络、智能引擎构成的新一代制造业数字化基础设施,召集全球开发者和创新企业众智,挖掘优良算法与创新应用方案,助力智能制造人才的挖掘与培养。雪浪算力开发者大赛2022 人工智能与数据科学竞赛白皮书 64人工智能与数据科学竞赛白皮书2022北京大学 主办单位 北京大学深圳研究生院 承办单位 深圳市深创谷技术服务有限公司、凯捷咨询、阿里云天池平台 奖 励 100,000 元AETA地震预测AI算法大赛中国人工智能学会 主办单位 中国人工智能学会、杭州市余杭区人民政府 承办单
133、位 杭州未来科技城管委会、京东零售 奖 励 1,000,000 元2022全球人工智能技术创新大赛算法挑战赛地震,尤其是大地震,一旦在人们毫无察觉的情况下发生在人口密集区,将对人们的生命财产造成难以估量的损失。围绕地震预测预报问题的求解而开展的前兆观测、前兆相关性分析、前兆机理研究、地震三要素预测模型等研究工作是非常具有挑战性,同时也是非常有科学价值和社会意义的。“AETA 地震预测 AI 算法大赛”旨在通过创新算法挖掘前兆观测数据与地震三要素的相关性,发现与临震相关的异常信号和特征,并基于历史观测数据和地震目录,构建地震预测模型,期望推动地震预测预报科学问题的求解。本次大赛提供的数据包括 A
134、ETA 地震监测预测系统在川滇实验场的观测网进行五年多的电磁和地声观测数据共计 95 个特征,以及中国地震台网中心地震目录。本次大赛重点评价特征提取和样本构建方法的创新性和先进性,以及地震预测模型的适用性和准确性,鼓励通过创新算法解决地震预报的科学问题。大赛立足国际视野,聚焦前沿科技与应用创新,推进人工智能领域的学术交流、人才培养、技术发展以及跨界应用与融合打造人工智能的人才交流平台与产业生态圈。本次比赛设置电商关键属性的图文匹配和商品标题实体识别两个智能算法赛道,面向全球开放,不限年龄国籍,高等院校在校学生以及科研机构和企业从业人员均可参赛,共吸引超过 3400 名选手参与,累计作品提交达
135、19000 余次。2022 人工智能与数据科学竞赛白皮书 65人工智能与数据科学竞赛白皮书2022参考文献 1 人民网,数据科学竞赛:数据开放、精准招聘新抓手,2022 2 中国工业互联网研究院,中国工业互联网产业经济发展白皮书(2021 年),2021 3 李德仁,从数字城市到智慧城市的理论与实践,2011 4 陈娟,数据竞赛助力大数据产业生态系统健康发展,2018 5 Digital Science,2022 年开放数据状况,2022 6 国家工业信息安全发展研究中心,中国数据要素市场发展报告(2021-2022),2022 7 Datawhale,2020 年度中国数据竞赛年鉴,2021
136、 8 DataCastle,2021 年数据科学竞赛白皮书,2022 9 和鲸科技,2021 人工智能竞赛白皮书,2022 10 艾瑞咨询,2022 年中国人工智能产业研究报告,2023 11 浙商证券,AI 模型框架研究报告,2023 12 中国信息通信研究院,计算机视觉产业创新与知识产权,2021 13 甲子光年,2023AIGC 应用与实践研究展望报告,2023人工智能与数据科学竞赛白皮书2022DataCastle(DC 竞赛)是数据城堡旗下产品,平台基于公司多年竞赛业务体系的技术沉淀,为用户提供竞赛、实训、人工智能实验室、算力资源等服务。DataCastle 3.0 打造全新数据科学
137、创新与实践平台,结合云端的在线计算环境与安全的数据资源池,为初学者提供实训教学平台,为爱好者提供项目实战擂台,为数据科学家提供开拓创新舞台。平台致力于以数据为基础,人才为导向,持续激发和挖掘每一位数据科学领域参与者的创新能力,励志推动中国数据科学发展。上线于 2016 年,是中国最早的数据科学竞赛平台之一32.5 万数据人才用户,是中国最大的第三方数据科学竞赛平台成功运营 500+个赛题,服务客户覆盖各级政府、各类企事业单位DataCastle数据城堡深耕数据领域8年数据科学人才325,000+专业赛事服务5000+福建省数据治理与数据流通工程研究院福建省数据治理与数据流通工程研究院(以下简称
138、数据研究院)是由福建省大数据集团有限公司发起并控股的创新型、引领性智库。数据研究院拥有一批深度合作的顶尖数据科学家、数据行业创业先锋和数字经济资深投资人。致力于探索数据价值化和数据要素化的高效可行路径,释放数字经济发展新动能。基于研究院发展规划,聚焦机制研究、人才支撑和新场景探索三大方向,制定成熟解决方案,开展成果转化。数据研究院秉持着“多元、融合、开放、共享”的原则,实现人才培养供给与产业需求深度融合,通过产教融合的模式参与培养更多适应新技术、新业态、新模式的高素质数据人才,共同健全教育链、产业链、人才链创新链协同发展新机制,大力培养面向“数字中国”的创新型数据科学与应用人才,努力为数字化时
139、代建设提供强有力的队伍支撑、人才支撑、智力支撑、生态支撑。人工智能与数据科学竞赛白皮书2022电子科技大学大数据研究中心电子科技大学大数据研究中心于 2014 年底成立,2015 年春正式运营。中心有全职教师 27 人,不重复计算的国家级人才有 14 名,包括 4 名千人计划专家,5 名青年千人,1名万人计划专家,2 名长江学者,1 名国家级百千万人才入选者,1 名优秀青年基金获得者。中心已经在 PNAS、Nature Communications、Physics Reports,PAMI 等国际知名的 SCI 期刊和 SIGKDD、INFCOM、ICDM、AAAI 等权威会议发表论文 300
140、 余篇,系亚洲乃至全球最活跃的相关研究机构之一。中心成员 5 年内两次获得国家科技进步二等奖,一次获得国家自然科学二等奖。大数据研究中心作为唯一高校代表单位,获批共建首个国家大数据工程实验室政府治理大数据应用技术国家工程实验室。山东省数据要素创新创业共同体山东省数据要素创新创业共同体是贯彻落实山东省人民政府 关于打造“政产学研金服用”创新创业共同体的实施意见(鲁政字201949 号)精神,由山东省大数据局推荐,经山东省人民政府同意、山东省科技厅批复设立的新型创新创业平台。作为全国数据要素领域唯一的省级创新创业共同体,数据要素共同体以助力山东省数据要素生态体系建设为己任,围绕“数字强省”战略,聚
141、焦山东省“十强”产业,以发展数据要素产业为核心,以数据交易流通为切入点,以数据应用为驱动力,发挥“政产学研金服用”各要素资源的协同作用,激发数据要素市场活力,充分释放数据资源应用价值,打造数据采集、数据存储、数据加工、数据流通、数据分析、数据应用和数据安全全产业链协同发展的数据价值化的新引擎;全面促进数据生产,优化产业结构,打通产业上下游链条;持续激发新模式,不断催生新业态,促进数据整合应用,在服务产业数字化的过程中实现数字产业化,推动全省经济社会高质量发展,带动千亿级产业集群增长。人工智能与数据科学竞赛白皮书2022亚马逊云科技亚马逊云科技 是全球最全面、应用最广泛的云平台,从全球数据中心提
142、供超过 200 项功能齐全的服务。数百万客户(包括增长最快速的初创公司、最大型企业和主要的政府机构)都在使用亚马逊云科技产品来降低成本、提高敏捷性并加速创新。亚马逊云科技提供的功能从计算、存储和数据库等基础设施技术,到机器学习、人工智能、数据湖和分析以及物联网等新兴技术。亚马逊云科技提供的服务以及其中的功能比其他任何云服务提供商的都要多得多这使得将现有应用程序迁移到云中并构建您可以想象的几乎任何东西都变得更快、更容易且更具成本效益。深圳国家基因库深圳国家基因库(China National Gene-Bank,CNGB)由国家发展和改革委员会、财政部、工业和信息化部、国家卫生健康委员会(原卫生
143、部)四部委批复建设。由深圳国家高技术产业创新中心负责运行管理,委托深圳华大生命科学研究院开展运营工作。深圳国家基因库是服务于国家战略的重大科技基础设施之一,对生物遗传资源进行存储、读取和开放共享,并以此为基础搭建起支撑生命科学研究与生物产业创新发展的公益性、开放性、引领性、战略性科技平台,是世界领先的综合性生物遗传资源基因库。移动云移动云隶属于中国移动通信集团公司,是中国移动面向政企、事业单位、开发者等客户推出的基于云计算技术、采用互联网模式、提供基础资源、平台能力、软件应用等服务的业务。移动云是建立在中国移动“大云”的基础上,自主技术研发而成的公有云平台,通过服务器虚拟化、对象存储、网络安全能力自动化、资源动态调度等技术,将计算、存储、网络、安全、大数据、开放云市场等作为服务提供,客户根据其应用的需要可以按需使用、按使用付费。移动云开发者社区依托移动云,打造各类品牌赛事活动,服务 500000+开发者、赋能 1000+团队以及孵化 100+优秀应用,共享千亿移动云生态。洞察竞赛趋势,激发数据力量AI&Data Science Competition 2022