使用 Amazon OpenSearch Ingestion 进行选择性下载 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon OpenSearch Ingestion 进行选择性下载

如果您的管道使用 S3 源,则可以使用 SQL 表达式对 S3 对象的内容进行筛选和计算,然后再将其摄取到管道中。

s3_select 选项支持 Parquet 格式对象。同时,也适用于使用 GZIP 或 BZIP2 压缩的对象(仅适用于 CSV 和 JSON 对象),并支持使用 GZIP 和 Snappy 对 Parquet 进行列式压缩。

以下示例管道下载以 Parquet 格式编码的传入 S3 对象数据:

pipeline: source: s3: s3_select: expression: "select * from s3object s" input_serialization: parquet notification_type: "sqs" ...

以下示例仅下载对象的前 10,000 条记录:

pipeline: source: s3: s3_select: expression: "select * from s3object s LIMIT 10000" input_serialization: parquet notification_type: "sqs" ...

以下示例在将事件摄取到管道之前检查 data_value 的最小值和最大值:

pipeline: source: s3: s3_select: expression: "select s.* from s3object s where s.data_value > 200 and s.data_value < 500 " input_serialization: parquet notification_type: "sqs" ...

除以上示例之外,您也可以使用 S3 Select 管道蓝图。有关蓝图的更多信息,请参阅 使用蓝图创建管道

有关更多信息,请参阅以下资源: