1、爱奇艺 Big Data+AI统一架构探索与实践刘骋昺爱奇艺研究员爱奇艺大数据服务体系介绍爱奇艺 AI 应用和流程简介如何基于大数据基础设施实现 AI 流程如何建设大数据机器学习平台Big Data+AI 未来的发展方向爱奇艺大数据服务体系介绍爱奇艺 AI 应用和流程简介如何基于大数据基础设施实现 AI 流程如何建设大数据机器学习平台Big Data+AI 未来的发展方向爱奇艺大数据发展历程爱奇艺大数据发展历程20122012 20152015传统 大数据120162016 20192019平台化实时化220202020 统一化智能化3集群集群单机房、1-2 个集群多机房、多集群存算分离、统一
2、逻辑集群存储存储HDFSHDFS+KafkaData Lake计算计算MapReduce+HiveSpark/Flink+OLAPBig DataBig Data +AIAI平台平台脚本+定时器离线工作流平台流计算平台机器学习平台应用应用离线报表实时分析基于规则的决策基于AI的决策爱奇艺大数据服务体系爱奇艺大数据服务体系规模:规模:通用集群+专用集群20000+台机器存储 600+PB批处理任务70万/天流计算任务5000+爱奇艺大数据服务体系介绍爱奇艺 AI 应用和流程简介如何基于大数据基础设施实现 AI 流程如何建设大数据机器学习平台Big Data+AI 未来的发展方向爱奇艺爱奇艺 AI
3、 AI 应用应用智能创作 选角 IP价值评估 流量预测 爱创媒资 AIWorks 智能动漫智能生产 视频指纹 智能审核 自适应编码 智能剪辑 智能生成描述关键词 智能封面智能分发 智能搜索 个性化推荐 泡泡社区宣发智能播放 热点预测 HCDN 自适应码流 绿镜 只看他 这是谁 弹幕蒙版智能变现 个性化广告投放 情景化广告创新 Video In Video Out AR广告 智能摘要广告智能交互 小艺机器人 智能在线客服 智能呼叫中心 HomeAI SmileAR爱奇艺爱奇艺 AI AI 的典型业务流程的典型业务流程特征数据原始数据用户行为日志用户画像在线特征存储K-V Store离线特征存储H
4、ive/Iceberg线上引擎推理服务样本数据HDFS模型HDFS特征计算模型训练部署加载特征Item信息基于大数据存储和计算服务爱奇艺大数据服务体系介绍爱奇艺 AI 应用和流程简介如何基于大数据基础设施实现 AI 流程如何建设大数据机器学习平台Big Data+AI 未来的发展方向大数据大数据 X X 特征计算特征计算 离线特征:计算框架:Hive/Spark on YARN平台支持:Babel 数据开发平台 w/Gear 工作流引擎 实时特征:计算框架:Flink on YARN、Stream SQL平台支持:RCP 实时计算平台 思考:通用的计算平台存在什么问题?大数据大数据 X X 模
5、型训练模型训练 传统机器学习算法:Spark on YARN 为主Spark MLlib 的大量常用算法其他,如 XGBoost4J-Spark,etc.深度学习算法:TonYTensorFlow/PyTorch/Horovod on YARNLinkedIn 开源,2021年7月加入 Linux 基金会爱奇艺作为主要贡献者之一,贡献了支持 Horovod 等 feature项目地址:https:/ YARN YARN 运行分布式训练?运行分布式训练?发挥大数据基础设施的优势成熟的大规模 YARN 集群管理经验支持 GPU 和其他资源类型队列支持层级结构,可与团队、项目对应队列间具有弹性支持
6、Docker 自定义运行环境可与上下游步骤(特征生产、训练、部署)构成工作流非大数据系统(如K8s)需集成 Hadoop 安全机制:KerberOS、Delegation TokenTonYTonY 架构架构 一种 YARN Application 支持各种模型Worker+PSRing All-Reduce并行、无交互任务其他自定义模型 TonY AppMaster 负责:资源申请任务调度错误恢复图片来源:Anthony Hsu.Scaling Deep Learning on Hadoop at LinkedIn,DataWorks Summit 2019对对 TonYTonY 改进点(回