《1A厅-马国俊-万明阳(最新).pdf》由会员分享,可在线阅读,更多相关《1A厅-马国俊-万明阳(最新).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、SkyNet:字节跳动泛反馈域智能监控中台架构解读及实践字节跳动 研发效能马国俊 万明阳个人经历马国俊马国俊字节跳动,研发效能负责人硕士毕业后曾先后就职于百度、腾讯等一线互联网公司。2019年6月加入职字节,从0到1创建研发效能团队,团队内拥有算法应用研究、数据策略、Server、FE、TPM等多条职能线。目前负责公司多个效能类产品的研发工作,聚焦于智能化 X 服务化。个人经历万明阳万明阳字节跳动,研发效能-算法团队Tech Leader硕士毕业后就职于腾讯2020年4月加入字节跳动,负责 NLP、CV 和 AIOps 等算法方向。在意图挖掘与热点发现、视频/图像质量与内容理解、智能监控与告警
2、上有丰富算法经验,并在多个效能类产品落地。前言背景介绍SkyNet 天网平台架构SkyNet 天网核心算法能力总结前言森林之王 VS 草原之王某马戏团工作人员在抖音发布狮虎决斗视频视频博主遭到少量用户举报虐待狮子老虎豆瓣有人发帖,影响开始扩散博主开始遭到大量用户举报视频截图被发布到微博,影响进一步扩散2021年4月,抖音上出现狮虎决斗视频前言客诉数据外溢趋势离线反馈用户举报在线IM产生零散客诉数据社交媒体论坛社区新闻媒体舆情发酵客诉数据量级急速上升事件产生前言前言背景介绍SkyNet 天网平台架构SkyNet 天网核心算法能力总结字节跳动作为全球月活超19亿(截至2021年6月)的互联网公司,
3、产品每天会收到大量的客诉数据,泛反馈数据天均亿级,如何快速识别用户意图、挖掘用户反馈价值是十分必要的。泛反馈App端内反馈电话热线IM短视频评论举报应用市场评论外部舆情背景介绍反馈是什么?用户关于所使用产品情况的声音,在泛化反馈的基础上进行抽象咨询类:How-to问题类:卡点问题建议类:用户吐槽/期待安全泛反馈体验反馈价值思考SkyNet天网平台挖掘反馈价值,赋予数据温度的同时,探寻数据背后的认知SkyNet天网平台业务:覆盖抖音、火山、头条、西瓜等公司大部分产品线数据:涉及180+数据源,日均五亿数据量策略:3W+策略安全:高危问题零逃逸体验:体验专项、实验专项提升用户体验平台架构展示侧:提
4、供Web+小程序 +飞书+工区TV大屏数据侧:Kafka+Flink+ES/HDFS/ClickHouse算法侧:基于Bert、LDA、BiLSTM等模型实现长短文本意图识别、热点发现、智能阈值与智能告警,快速理解反馈意图,更早发现反馈量级异常。安全侧:基于数据隐私和信息安全,分机房部署服务、存储数据。天网的骨骼架构NLP X CV X 时序预测多模态:文本、图片、语言ASR等多渠道:离线反馈、IM、电话小结、举报、舆情等能力:利用内容理解、热点发现、时序预测等算法模型实现快速准确识别用户反馈意图,自动发现热点反馈内容,智能监控时序反馈量级天网的大脑算法平台架构API层:对外提供多类消费管道引
5、擎层:建设大数据OLAP引擎,支持ElasticSearch、ClickHouse和Presto三种引擎。另:封装了统一SQL查询入口,对外屏蔽引擎信息。接入层:Flink、Spark数据源:Kafka、ES、Hive、MySQL等天网的血液数据平台架构天网的血液数据平台架构反序列化 格式化 清洗 序列化 持久化抽象业务,数据接入任务通用化框架:React Hooks+TypeScript 发布:CDN+Goofy Node BFF 埋点监控国际化自动翻译天网的皮肤前端平台架构VOC:Voice Of Customer渠道:小程序+工区TV大屏合作:联合公司企业文化部门文化:贴合公司务实敢为的
6、价值观,通过产品技术能力来为用户发声,打造产研重视反馈的文化天网的喉舌VoC平台架构前言背景介绍SkyNet 天网平台架构核心算法能力介绍总结核心算法能力文本理解标签化 含义:通过层级标签体系细分文本类别 挑战:标签体系定义有重叠 数据不均衡 准召难以平衡 方案:BERT+DAPT+TAPT 数据增强+核心算法能力多模态语义理解 含义:结合多模态模型提升模型准召 挑战:模态缺失 方案:ResNet+BERT 模态填补核心算法能力未知事件聚类 含义:通过无监督聚合相似语义反馈发现新热问题 挑战:聚类效果受业务场景影响