当前位置:首页 > 报告详情

云原生开源数据湖最佳实践-开源大数据与AI行业实践论坛(16页).pdf

上传人: 云闲 编号:84562 2021-01-01 16页 15.52MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了小红书在云原生开源数据湖方面的最佳实践。作为一家拥有超过70%的90后年轻用户的平台,小红书的数据量在近14个月内增长了4倍。为了应对这一挑战,小红书采用了HDFS、S3、OSS等对象存储技术,并使用Alluxio、Hive、Meta、Parquet、Avro、Iceberg等工具进行数据存储和管理。同时,他们还利用K8s、Yarn、Pavo、Tez、Spark、Flink、Clickhouse、TiDB、Presto等计算引擎进行数据处理和分析。 在数据存储方面,小红书采用了多种存储类型,以满足不同访问模式的需求,并通过统一的生命周期管理实现数据的高可用性和可靠性。为了优化数据处理性能,他们还采用了Dynamic Schema、AgentFS等技术和工具。 在数据应用方面,小红书通过Vela报表系统和实验平台,对数据进行深入分析和探索,以支持产品运营和用户决策。他们还利用各种API和sdk,实现与其他服务和组件的集成。 总之,小红书通过采用云原生开源数据湖的最佳实践,成功应对了数据量增长和年轻用户需求的变化,为用户提供了一个充满活力和多样性的平台。
"小红书大数据如何实现成本与性能平衡?" "云原生数据湖如何满足不同场景的性能需求?" "小红书如何通过大数据架构赋能产品与运营?"
客服
商务合作
小程序
服务号
折叠