当前位置:首页 > 报告详情

胡争-下一代多模数据湖Lance的设计和实践0327.pdf

上传人: Fl****zo 编号:624579 2025-03-31 24页 2.76MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
Lance是一种列式数据集格式,适用于图像、视频、3D点云、音频和表格数据,支持POSIX文件系统和云存储。Lance的主要功能包括高性能随机访问、向量搜索、零拷贝自动版本控制和生态系统集成。它支持binary或large_binary类型存储多模数据,并能够方便地集成Duckdb、Spark和Ray等分布式计算引擎。Lance支持数据变更,如加列、删列操作,并能够进行GPU打标操作。它还提供随机点查和二级索引能力,支持全局随机点查和透明压缩。Lance的存储结构采用Data、Metadata和Footer三者解耦,有效处理大宽表场景。数据写入时自动压缩,读取时自动解压,能够减少3-4倍的存储空间。它去掉传统的RowGroup,采用二维的存储布局,行被分为Fragment,Fragment再分为DataFile,每个DataFile包含相同数量的行和一个或多个数据列。在Lance中加列只需添加新文件,不需覆盖写旧文件。它还支持Packed Struct特性,将Struct对象拉成行存,减少IO读取次数。Lance数据湖服务包括Lance Catalog,用于管理Lance表,以及Lance小文件压缩和多模数据湖服务。
Lance数据湖如何优化多模数据处理? Lance核心技术特点有哪些? Lance数据湖在火山引擎中的应用有哪些优势?
客服
商务合作
小程序
服务号
折叠