1、基础技术开源开放 激发AI创新动能2021年7月31日郑曌|第四范式技术副总裁、基础技术负责人About me郑曌郑曌|第四范式技术副总裁、基础技术负责人第四范式技术副总裁、基础技术负责人在大规模机器学习系统、个性化推荐、搜索、工程技术团队管理等领域拥有丰富经验。曾任Google 展示广告架构团队架构师、Pinterest 个性化推荐与搜索团队技术负责人 现任第四范式技术副总裁、基础技术负责人,主持设计与开发国内首个开源机器学习数据库 OpenMLDB、开源AI操作系统内核 OpenAIOS。带领团队打造出国内首款软件定义算力软硬一体化AI集成系统 SageOne Appliance热爱 co
2、ding,曾获 ACM 世界冠军。研发并开源国内首个推荐算法工具 SVDFeature 获得 KDD Cup 2011 季军、2012 冠军AI 进入所有人的工作和生活,进入各个行业AI 快速步入行业的背后,是人类科学发展的四个范式The Fourth Paradigm:Data-Intensive Scientific Discovery”2007科学发展的四个范式-1998年图灵奖获得者 Jim Gray机器找规律对比人找规律具备的优势人 vs 机器数百条规则抓大放小,无法适应动态变化有限理性事后诸葛亮无法实时响应事后响应科学家资源供不应求专家经验、沉淀无法复用无法复用超千万规则面面俱到,
3、可以形成闭环动态更新极限理性毫秒级响应,模型、特征高频更新对突发事件实现细粒度反应实时响应复用性强可大规模复制至多类业务场景规模复制AI挖掘海量数据中的科学规律,带来应用效果提升99%某银行反洗钱效率提升千条规则-亿级规则96%某保险公司保险索赔案风险审核准确率数千条规则-千万级规则99.33%某石油企业化工产品价格预测1-7天平均准确率数百条规则-千万级规则50%某零售企业销售预测准确率提升百条规则-千万级规则3倍糖尿病预警准确率同专业医师协会相比提升十数条规则-百万级规则1,900%某国内最大单机游戏媒体点击率提升百级规则-亿级规则成功案例做到什么:基础技术链接数据、算力、应用形成合力应用
4、侧受制于各环节开发者反复的工作全栈AutoML算法,全场景、全流程AI自动化算力侧利用率低下,异构硬件使用门槛高业务与算力适配难现有调度系统落后资源调度的门槛高集群管理操作复杂OpenAIOS 实现对异构设备的统一调度管理数据侧的技术演进为人机协同决策提供了可能数据记全、记对百G 级别数据数百数据处理秒级响应1970s2010Now瞬时新信息快速获取,全量数据计算PB 级别数据百万数据处理秒级响应人手工录入数据并分析数据系统自动收集数据,人分析数据超大规模并发和数据量,云化基础设施数百 PB 级别数据百万数据处理毫秒级响应正确、高效的AI数据供给成为数据侧的新挑战OpenMLDB,供给正确的机
5、器学习数据OpenMLDB,供给高效的机器学习数据PCASPersistent-Compare-And-SwapLow overhead consistency guarantee without lock:1.Flush-on-read2.Smart pointer相比商用 DBMS 实现 50%50%TCO 节省 90%90%灾备恢复速度 30 x 30 x 提速OpenMLDB,正确数据保障的同时降低运维复杂性OpenMLDB 正式发布月余,获得了社区小伙伴的关注Former CTO for Machine Learning at Cloudera50万行代码1.5k GitHub starsAIOS社区版,提供免费算力和开发环境,供开发者体验和学习