当前位置:首页 > 报告详情

向高盛传奇的Lakehouse学习数据治理.pdf

上传人: Fl****zo 编号:718843 2025-06-22 48页 1.65MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文介绍了Legend Lakehouse,一种由Goldman Sachs推出的开源数据治理平台,旨在解决传统大数据架构的局限性。关键点如下: 1. **传统架构挑战**:面临如固定硬件、数据快速增长、架构分散、缺乏现代开放格式支持等问题。 2. **Legend Lakehouse理念**:强调自我服务、互操作性、可扩展性和无服务器架构。 3. **设计原则**:支持结构化和非结构化数据,强调数据生产者保证数据完整性,快速访问正确数据,并与治理平台紧密集成。 4. **架构**:采用Apache Iceberg作为开放存储层,统一治理层,以及多种在线分析处理(OLAP)系统。 5. **数据流生命周期**:涵盖定义、摄取、转换、查询等阶段。 6. **Databricks的整合**:Databricks通过其Unity Catalog等功能,支持Legend Lakehouse的治理和开放性。 7. **核心数据**:提及两个大型on-prem集群(每个约1000节点,40+PB HDFS),数据约每18个月翻倍。 8. **关键成果**:通过可扩展架构、无服务器计算、统一治理和端到端可见性,实现数据治理现代化。 本文强调Legend Lakehouse通过这些设计原则和Databricks的整合,提高了数据团队的工作效率,并降低了运营复杂性和成本。
"Lakehouse如何革新数据治理?" "Databricks如何实现Legend Lakehouse愿景?" "数据流转生命周期怎么走?"
客服
商务合作
小程序
服务号
折叠