本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon OpenSearch Ingestion 进行选择性下载
如果您的管道使用 S3 源
s3_select
选项支持 Parquet 格式对象。同时,也适用于使用 GZIP 或 BZIP2 压缩的对象(仅适用于 CSV 和 JSON 对象),并支持使用 GZIP 和 Snappy 对 Parquet 进行列式压缩。
以下示例管道下载以 Parquet 格式编码的传入 S3 对象数据:
pipeline: source: s3: s3_select: expression: "select * from s3object s" input_serialization: parquet notification_type: "sqs" ...
以下示例仅下载对象的前 10,000 条记录:
pipeline: source: s3: s3_select: expression: "select * from s3object s LIMIT 10000" input_serialization: parquet notification_type: "sqs" ...
以下示例在将事件摄取到管道之前检查 data_value
的最小值和最大值:
pipeline: source: s3: s3_select: expression: "select s.* from s3object s where s.data_value > 200 and s.data_value < 500 " input_serialization: parquet notification_type: "sqs" ...
除以上示例之外,您也可以使用 S3 Select 管道蓝图。有关蓝图的更多信息,请参阅 使用蓝图创建管道。
有关更多信息,请参阅以下资源: