Amazon OpenSearch Ingestion 管道支持的插件和选项 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon OpenSearch Ingestion 管道支持的插件和选项

与开源 Data OpenSearch Prepper 相比,Amazon Ingestion 支持一部分源、处理器和接收器。此外, OpenSearch Ingestion 还对每个支持的插件的可用选项施加了一些限制。以下各节介绍了 OpenSearch Ingestion 支持的插件和相关选项。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

支持的插件

OpenSearch Ingestion 支持以下 Data Prepper 插件:

处理器

接收器

  • OpenSearch(支持 OpenSearch 服务、 OpenSearch 无服务器和 Elasticsearch 6.8 或更高版本)

  • S3

接收器编解码器

无状态与有状态处理器

无状态处理器执行诸如转换和筛选之类的操作,而有状态处理器则执行诸如聚合之类的操作,这些操作会记住上一次运行的结果。 OpenSearch Ingestion 支持有状态的处理器聚合和服务映射。所有其他受支持的处理器均为无状态处理器。

对于仅包含无状态处理器的管道,最大容量限制为 96 个 Ingestion OCU。如果管道包含任何有状态的处理器,则最大容量限制为 48 个 Ingestion OCU。但是,如果管道启用了持久缓冲,则该管道最多可以有 384 个 Ingestion OCU(仅包含无状态处理器),或者 192 个摄入 OCU(如果它包含任何有状态的处理器)。有关更多信息,请参阅 扩缩管道

仅无状态处理器支持 E nd-to-end 确认。有关更多信息,请参阅 E nd-to-end 致谢

配置要求和限制

除非下面另有说明,否则上面列出的受支持插件的 Data Prepper 配置参考中描述的所有选项都允许在 OpenSearch Ingestion 管道中使用。以下各节解释了 OpenSearch Ingestion 对某些插件选项施加的限制。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

许多选项都由 OpenSearch Ingestion 在内部配置和管理,例如authentication和。acm_certificate_arn其他选项(例如,thread_countrequest_timeout),一旦手动更改,则会影响性能。因此,将在内部设置这些值,以确保实现管道的最佳性能。

最后,有些选项无法传递给 OpenSearch Ingestion,例如ism_policy_filesink_template,因为在开源 Data Prepper 中运行时它们是本地文件。这些值不受支持。

常规管道选项

以下常规管道选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

  • workers

  • delay

Grok 处理器

以下 Grok 处理器选项不受支持:

  • patterns_directories

  • patterns_files_glob

HTTP 源

HTTP 源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如,https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下 HTTP 源选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • ssl_key_file

    • ssl_certificate_file

    • aws_region

    • authentication

    • unauthenticated_health_check

    • use_acm_certificate_for_ssl

    • thread_count

    • request_timeout

    • max_connection_count

    • max_pending_requests

    • health_check_service

    • acm_private_key_password

    • acm_certificate_timeout_millis

    • acm_certificate_arn

OpenSearch 水槽

s OpenSearchink 插件具有以下要求和限制。

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

    • serverless(如果接收器是 OpenSearch 无服务器集合)

  • sts_role_arn 选项必须指向 YAML 定义文件中每个接收器的同一角色。

  • hosts选项必须指定 OpenSearch 服务域端点或 OpenSearch 无服务器集合端点。YAML 定义文件中的所有主机必须指向同一端点。您不能为域指定自定义端点;必须是标准端点。

  • 如果 hosts 选项为无服务器集合端点,则必须将 serverless 选项设置为 true。此外,如果 YAML 定义文件包含 index_type 选项,则必须将其设置为 management_disabled,否则验证将失败。

  • 不支持以下选项:

    • username

    • password

    • cert

    • proxy

    • dlq_file - 如果要将失败事件卸载到死信队列 (DLQ),则必须使用 dlq 选项并指定 S3 存储桶。

    • ism_policy_file

    • socket_timeout

    • template_file

    • insecure

    • bulk_size

OTel 指标源、OTel 跟踪源和 OTel 日志源

OTel 指标源、OTel 跟踪源和 OTel 日志源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如,https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • sslKeyFile

    • sslKeyCertChainFile

    • authentication

    • unauthenticated_health_check

    • useAcmCertForSSL

    • unframed_requests

    • proto_reflection_service

    • thread_count

    • request_timeout

    • max_connection_count

    • acmPrivateKeyPassword

    • acmCertIssueTimeOutMillis

    • health_check_service

    • acmCertificateArn

    • awsRegion

OTel 跟踪组处理器

OTel 跟踪组处理器具有以下要求和限制:

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

  • sts_role_arn选项指定的角色与您在 OpenSearch 接收器配置中指定的管道角色相同。

  • 不支持 usernamepasswordcertinsecure 选项。

  • aws_sigv4 选项为必填项,必须设置为 true。

  • 不支持 sin OpenSearch k 插件中的serverless选项。Otel 跟踪组处理器目前不适用于 OpenSearch 无服务器集合。

  • 管道配置主体中的 otel_trace_group 处理器数量不能超过 8 个。

OTel 跟踪处理器

OTel 跟踪处理器具有以下要求和限制:

  • trace_flush_interval 选项的值不能超过 300 秒。

服务映射处理器

服务映射处理器具有以下要求和限制:

  • window_duration 选项的值不能超过 300 秒。

S3 源

S3 源插件具有以下要求和限制:

  • aws 选项为必填项,必须包含 regionsts_role_arn 选项。

  • records_to_accumulate 选项的值不能超过 200。

  • maximum_messages 选项的值不能超过 10。

  • 如果指定,则 disable_bucket_ownership_validation 选项必须设置为 false。

  • 如果指定,则 input_serialization 选项必须设置为 parquet