您将如何将数据移入和移出 Iceberg?

Unite professionals to advance email dataset knowledge globally.
Post Reply
nusaibatara
Posts: 273
Joined: Tue Jan 07, 2025 4:22 am

您将如何将数据移入和移出 Iceberg?

Post by nusaibatara »

公司通常使用 ELT 工具(例如 Fivetran 或 Airbyte)将数据从各种来源移动到数据仓库。他们还可能使用 Kafka 等流式解决方案将数据导入仓库。您应该评估这些数据导入工具,以确保它们支持将您的对象存储作为目标而不是数据仓库,并且它们还可以将数据写入您的 Iceberg 文件格式。支持以 Iceberg 格式登陆数据的供应商包括Fivetran、Airbyte、Confluent 的 TableFlow和Upsolver。

公司通常使用 Hightouch 等数据激活和反向 ETL平台将数据从其数据仓库中移出,以支持数据驱动的营销、广告和运营等用例。幸运的是,Hightouch 已经完全支持 Iceberg 格式的 就业数据库 数据激活,并允许您使用您选择的查询引擎(例如 Trino/Starburst)来最大限度地提高性能。除了数据流出之外,对于可组合 CDP来说,这成为一个更令人兴奋的想法。Hightouch 可以直接连接到开放数据湖,并为营销团队提供自助服务数据以进行激活和个性化的能力,而无需任何主观建模或额外的数据移动。

Lakehouse 架构图

采用 Iceberg 格式的数据湖上可组合 CDP 架构示例,使用 Starburst 作为查询引擎。

您将如何协调多个查询引擎?
Iceberg 的一个主要优势是您可以将不同的查询引擎应用于不同的工作负载,从而提高性能并降低成本。在一个示例场景中,分析师将使用 Athena 进行临时查询;较轻的公司工作负载可以在duckdb上运行;较重的工作负载可以在 Spark 上运行。

这必然会引入编排和网络复杂性。您应该评估您的数据团队是否可以在内部或使用专用编排平台来处理这种复杂性。

例如,Orchestra 具有原生的托管连接器,可帮助缓解基础设施集成和联网的麻烦。您可以使用 Orchestra 在任何查询引擎中触发查询,监控它们,然后显示结果和任何其他有用的底层元数据。这很有用,因为数据团队可以从 Orchestra 内部的一个位置轻松调试故障并确定故障的根本原因。
Post Reply