《2019年海致智能数据平台BDP技术演进之路.pdf》由会员分享,可在线阅读,更多相关《2019年海致智能数据平台BDP技术演进之路.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、海致智能数据平台BDP技术演进之路 海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP私有化部署及智能监控 Q&AAgenda公司简介海致全称海致网络技术公司,成立于2013年7月。作为一家技术驱动的创业型公司,海致的创始班底拥有丰富的技术经验。核心团队成员来自百度、阿里、滴滴、美团、微软、IBM等知名企业的资深互联网专家。海致目前已完成C轮3000万美元融资,估值2.5亿美元。投资方主要有IDG、高瓴资本、君联资本、贝塔斯曼中国、晨兴创投以及中国领先的金融数据服务企业万得咨询跟投。What is BDP?快速打造贴合业务的一站式数据平台灵活易用完整闭环数据驱动管理
2、提升经营绩效海致BDP发展历程20142015201620172018基于大数据技术的BI平台,主要技术栈:HDFS+Hive+Shark(Spark 0.9)可视化:Angular+HighchartsBDP前身:经营罗盘面向个人分析师或小微客户服务。挑战:HDFS大量小文件问题;高并发OLAP查询性能考验BDP个人版面向公安及金融行业的头部客户提供数据分析服务。挑战:阿里云、星环、华为云等平台支持,第三方厂商数据交换等。BDP行业化一站式数据管理和分析平台,SaaS服务模式。BDP为了更好的服务大客户,推出私有化部署版本。挑战:监控运维成本BDP私有化成果已帮助数千家企业搭建了自己的数据平
3、台搭建周期:1天1周 海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP的私有化部署及智能监控 Q&AAgenda产品架构BDP产品技术架构1.高性能任意维度高性能任意维度CUBE查询查询2.自研自研Patch算法算法-追加写实现追加写实现UID3.基于版本的并行基于版本的并行DAG数据建数据建模任务调度系统模任务调度系统4.基于基于Redis实现多级查询缓实现多级查询缓存模块,提升缓存命中率存模块,提升缓存命中率1.可增量更新的物化视图可增量更新的物化视图2.扩展扩展SQL语法支持机器语法支持机器学习学习3.数据平台底层无缝切换数据平台底层无缝切换至阿里云至阿里云4
4、.基于基于Structured Streaming实现通用流式计实现通用流式计算算1.实现用户自定义图表实现用户自定义图表JS代码的异常检测代码的异常检测2.自研探针系统,用户自研探针系统,用户可以将不常用任务降级,可以将不常用任务降级,提高资源利用率提高资源利用率3.基于标准基于标准SQL抽象算子抽象算子体系体系1.自助进行数仓主题库建设自助进行数仓主题库建设2.实现通用标签计算引擎实现通用标签计算引擎3.基于基于PhantomJS实现高质量实现高质量图表、仪表盘后端渲染导出图表、仪表盘后端渲染导出多数据整合,形成统一的数据口径APP/网站业务系统营销投放咨询工具咨询报告数据集中管理内部业务
5、数据CRM、ERP等外部业务数据第三方平台外部公开数据公共数据示例数据同步工具/接口API平台直供统一数据出口多数据整合,建立统一的数据口径SQL ServerOracleMySQLMongoDB百度搜索搜狗搜索神马搜索360搜索天气数据App应用排名PMICPI友盟其他APIExcel/CSV等上百种数据源同步客户端可视化探索式分析灵活易用高性能可视化探索式分析高级计算计算字段汇总统计多层钻取数据筛选展现形式漂亮直观,分析到位,指标预警,让数据说话GIS地图分析自助式数据处理-合表拖拽式关联合表自定义数据聚合高灵活追加合并完善的SQL支持自助式数据处理-数据建模机器学习SaaS平台的一些数据
6、平均每日查询任务量328,370平均查询耗时1,870 ms工作表数1,190,671图表数4,190,316 海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP私有化部署及智能监控 Q&AAgenda数据同步OLAP任意多维分析引擎实现数据建模系统实现机器学习实现可视化引擎实现性能及稳定性优化BDP的技术挑战与建设难点insert、upsert、delete主键并发写及ACID事务基于parquet自动合并小文件数据版本数据同步之数据表的DML支持自研Patch存储结构_action_actiontable_datatable_data_timestam_times