Cloudera数据仓库产品管理高级总监Bill Zhang
IDC调研中国数据显示,在落地GenAI应用时,68%的企业认为需要梳理内部数据资产,66%的企业希望搭建数据湖等数据底座。开放式数据湖仓一体架构正迅速成为海量数据进行统一、多功能分析的标准架构。这种架构既融合了数据湖的灵活性和可扩展性,又具备数据仓库的数据分析、治理和管理功能,为企业提供了强大的数据处理能力。开放表格式是这一架构的关键组成部分,它直接在数据湖存储上提供了大量传统数据仓库的功能。目前,Apache Iceberg正迅速成为厂商和客户的标准格式。
尽管Iceberg的诸多特性可大幅降低实现高性能数据视图所需的工作量,但这些特性也带来了额外的开销,并且需要手动执行作业以优化性能和成本。为进一步简化数据湖仓一体架构的管理,Cloudera推出了Cloudera Lakehouse Optimizer。该服务可智能化自动处理Iceberg表,使得许多维护作业能够在后台自动运行。下面,我们将详细介绍Cloudera Lakehouse Optimizer的功能、优势以及未来的发展方向。
Cloudera Lakehouse Optimizer的功能
Cloudera Lakehouse Optimizer根据用户配置和Iceberg表统计数据,自动运行基于策略的Iceberg表优化任务。自动优化任务包括:
压缩(Compaction):企业通常会通过微批处理(MicroBatching)或流式摄取(StreamingIngestion)等方式接收大量小文件,而读取这些小文件会严重影响查询性能。压缩是将小文件合并为大文件以提升性能的过程。Cloudera Lakehouse Optimizer能够自主判断自动压缩数据文件的最佳时机,确保用户的表始终保持最佳性能。该服务还会根据使用模式优先优化高价值的表,确保每次优化都能带来实际的投资回报。
表清理(Table Cleanup):随着表的增长,往往会积累大量不再使用的数据文件、清单文件和快照。用户通常需要执行表维护功能,例如清除过期快照、移除旧元数据文件以及清理孤立文件,以优化存储利用率并提升性能。Cloudera Lakehouse Optimizer能够自主判断维护任务的最佳时机,确保表的存储利用率最大化。
除了优化措施和基于策略的控制措施,Cloudera Lakehouse Optimizer还提供了优化任务的可观测性,以帮助数据团队清晰了解策略对表和存储健康状况及性能的影响。
Cloudera Lakehouse Optimizer的优势
Cloudera Lakehouse Optimizer为使用Iceberg表的企业带来了诸多优势:
·通过优化存储占用空间和减少查询运行时间,降低总体拥有成本(TCO)。
·通过减少查询中需要读取的文件数量,提供高性能的数据视图。
·通过自动执行一些繁琐的湖仓维护任务,减少数据管理工作和开销。
Cloudera内部基准测试表明,使用Cloudera Lakehouse Optimizer维护Iceberg表可显著节约成本。实际效果因使用场景不同可能有所差异。
未来方向
对于想要转向开放式数据湖仓一体架构的企业,Cloudera Lakehouse Optimizer当前推出的功能为他们解决了两个重要难题。Cloudera的愿景是让提供高性能的数据视图变得更加容易,而这仅仅是实现这一愿景所迈出的第一步。未来,我们计划增加对更多优化功能的支持,包括通过分区重组解决影响查询性能的数据分布问题和查询优化。
我们的目标是确保Cloudera成为管理和访问Iceberg表的最佳平台之一,同时让企业更轻松地采用开放式数据湖仓一体架构。