《云原生开源数据湖最佳实践-开源大数据与AI行业实践论坛(16页).pdf》由会员分享,可在线阅读,更多相关《云原生开源数据湖最佳实践-开源大数据与AI行业实践论坛(16页).pdf(16页珍藏版)》请在三个皮匠报告上搜索。
1、云原生开源数据湖最佳实践吕侣小红书大数据负责人Cloud native open source data lake best practices年轻用户在这里通过短视频、图文等形式记录生活点滴分享生活方式,并基于兴趣形成互动这里有超过70%的90后年轻人是年轻人不可替代的生活方式平台和消费决策入口小红书介绍1 亿月活跃年轻用户100.125.145.160.180.195.220.225.235.240.260.290.330.360.400.100.200.300.400.500.07/3108/3109/3010/3111/3012/3101/3102/2803/3104/3005/310
2、6/3007/3108/3109/30数据量小红书数据量增长近14个月数据量增长4倍核心扩展性仓端分隔拥抱云考量点HDFSS3OSSAlluxioAgentFSHiveMetaParquetORCAvroIcebergHudiDynamicSchemaK8sYarnPavoTezSparkFlinkClickhouseTiDBPrestoDorisKylin联邦查询函数治理WaypointVelaGravityTableauGuanyuanDorRugalPokaGalaxyVirgo实验平台小红书大数据架构图应用层计算资源层计算引擎层数据层存储层研发工具产品运营赋能分析报表离线引擎实时引擎即
3、席分析物化引擎引擎治理存储层,以对象存储为核心标准型低频型归档型冷归档型统一的生命周期管理强一致数据模型,应用架构更简单多存储类型,全面覆盖各种访问模式数据成本海量数据场景下成本能匹配数据价值性能满足多种不同数据场景的性能诉求可靠性数据高可用,安全合规生态支持多种数据快速接入,多种数据引擎共享数据存储层-AgentFSAgentFS计算引擎MetaServerS3/OSSHiveMeta-StorePorterDBPrometheus创建、查询、删除修改文件路径等查询表文件路径删除文件根据路径读写文件数据归位查询表或者分区的地址添加分区信息查询分区信息修改分区地址查询迁移表信息监控指标批量删除
4、文件数据层-Dynamic Schemacreate external table dw_user_profile_day(user_token string,gender struct,location_info struct,app_info struct,user_app_list struct user_channel_info_list struct)PARTITIONED BY(dtm string)ROW FORMAT SERDEorg.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDeSTORED AS INPUTFO
5、RMATorg.apache.hadoop.hive.ql.io.parquet.serde.MapredParquetInputFormatOUTPUTFORMATorg.apache.hadoop.hive.ql.io.parquet.serde.MapredParquetOutputFormatdw_user_profile_day表结构定义user_profile_location_infoCLocationInfouser_profile_userapplistCUserAppListinsert overwrite table reddw.dw_user_profile_basic
6、_info_day partition(dtm=20210816)select a.user_token,a.s.col2.profile_gender as profile_gender,a.s.col2.profile_latest_country as profile_latest_country,a.s.col2.profile_usually_city as profile_usually_cityfrom(select user_token,max(struct(dtm,named_struct(profile_gender,default.pb_deserializer(gend