个管道可以扩展到每秒

sakib40 · Post by **sakib40** » Tue Apr 22, 2025 8:57 am

默认情况下，管道可以从两个来源（Workers 和 HTTP 端点）提取数据，并将批量事件加载到 R2 存储桶中。这为您提供了一个开箱即用的解决方案，用于将原始事件数据流式传输到对象存储中。如果默认设置不起作用，您可以在创建期间或之后的白俄罗斯电报号码数据任何时间配置管道。选项包括：向 HTTP 端点添加身份验证、配置 CORS 以允许浏览器发出跨域请求，以及指定输出文件压缩和批量设置。

我们从第一天起就构建了用于高数据采集量的管道。每约 10 万条记录（而这仅仅是个开始）。记录写入管道后，会被持久化存储、批量处理，并以文件形式写入 R2 存储桶。批量处理在这里至关重要：如果您要对这些数据进行操作和查询，您肯定不希望查询引擎查询数百万（甚至数千万）个小文件。这样做速度慢（每个文件和请求的开销）、效率低（需要读取更多文件）、成本高（操作更多）。相反，您需要在查询引擎的批量大小和延迟（不要等待太长时间完成批量处理）之间找到合适的平衡点：管道允许您配置这一点。

为了进一步优化查询，输出文件将使用标准 Hive 分区方案按日期和时间进行分区。这可以进一步优化查询，因为您的查询引擎可以跳过与您正在运行的查询无关的数据。R2 存储桶中的输出可能如下所示。