Amazon OpenSearch Ingestion 管道支持的插件和选项 - 亚马逊 OpenSearch 服务
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon OpenSearch Ingestion 管道支持的插件和选项

Amazon OpenSearch Ingestion 支持开源 Data Prepper 中的源、处理器和接收器仅相当于开源 OpenSearch Dat a Prepper 的一小部分。此外, OpenSearch Ingestion 对支持的每个插件的可用选项提出了一些限制。以下各节介绍 OpenSearch Ingestion 支持的插件和相关选项。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

支持的插件

OpenSearch Ingestion 支持以下 Data Prepper 插件:

处理器

接收器

  • OpenSearch(支持 OpenSearch 服务、 OpenSearch 无服务器和 Elasticsearch 6.8 或更高版本)

  • S3

接收器编解码器

无状态与有状态处理器

无状态处理器执行转换和筛选等操作,而有状态处理器则执行聚合等操作,会记住上一次运行的结果。 OpenSearch Ingestion 支持有状态的处理器聚合和服务映射。所有其他受支持的处理器均为无状态处理器。

对于仅包含无状态处理器的管道,最大容量限制为 96 个 Ingest OCUs ion。对于包含任何有状态处理器的管道,最大容量限制为 48 个摄 OCUs取。但是,如果管道启用了永久缓冲区,则仅 OCUs 包含无状态处理器时最多可以有 192 个摄取,包含任何有状态处理器时最多可以有 192 个摄取 OCUs 。有关更多信息,请参阅 在 Amazon OpenSearch Ingestion 中扩展管道

End-to-end 仅无状态处理器支持确认。有关更多信息,请参阅 End-to-end 确认

配置要求和限制

除非下文另有说明,否则上文列出的受支持插件的 Data Prepper 配置参考中描述的所有选项均允许在 OpenSearch Ingestion 管道中使用。以下各节介绍了 OpenSearch Ingestion 对某些插件选项提出的限制。

注意

OpenSearch Ingestion 不支持任何缓冲区插件,因为它会自动配置默认缓冲区。如果您在管道配置中添加缓冲区,将收到验证错误。

许多选项都由 OpenSearch Ingestion 在内部配置和管理,例如authentication和。acm_certificate_arn其他选项(例如,thread_countrequest_timeout),一旦手动更改,则会影响性能。因此,将在内部设置这些值,以确保实现管道的最佳性能。

最后,某些选项无法传递到 OpenSearch Ingestion(例如ism_policy_file和)sink_template,因为在开源 Data Prepper 中运行时它们是本地文件。这些值不受支持。

常规管道选项

以下常规管道选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

  • workers

  • delay

Grok 处理器

以下 Grok 处理器选项不受支持:

  • patterns_directories

  • patterns_files_glob

HTTP 源

HTTP 源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如 https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下 HTTP 源选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • ssl_key_file

    • ssl_certificate_file

    • aws_region

    • authentication

    • unauthenticated_health_check

    • use_acm_certificate_for_ssl

    • thread_count

    • request_timeout

    • max_connection_count

    • max_pending_requests

    • health_check_service

    • acm_private_key_password

    • acm_certificate_timeout_millis

    • acm_certificate_arn

OpenSearch 下沉

OpenSearch接收器插件具有以下要求和限制。

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

    • serverless(如果接收器是 OpenSearch 无服务器集合)

  • sts_role_arn 选项必须指向 YAML 定义文件中每个接收器的同一角色。

  • hosts选项必须指定 OpenSearch 服务域端点或 OpenSearch 无服务器集合端点。您不能为域指定自定义端点;必须是标准端点。

  • 如果 hosts 选项为无服务器集合端点,则必须将 serverless 选项设置为 true。此外,如果 YAML 定义文件包含 index_type 选项,则必须将其设置为 management_disabled,否则验证将失败。

  • 不支持以下选项:

    • username

    • password

    • cert

    • proxy

    • dlq_file - 如果要将失败事件卸载到死信队列 (DLQ),则必须使用 dlq 选项并指定 S3 存储桶。

    • ism_policy_file

    • socket_timeout

    • template_file

    • insecure

OTel 指标源、 OTel 跟踪源和 OTel 日志源

OTel 指标源、OTel 跟踪源和OTel 日志源插件具有以下要求和限制:

  • path 选项为必填项。路径是字符串(例如,/log/ingest),它表示日志摄取的 URI 路径。此路径定义用于向管道发送数据的 URI。例如 https://log-pipeline.us-west-2.osis.amazonaws.com/log/ingest。路径必须以斜杠 (/) 开头,而且可以包含特殊字符 ‘-'、‘_’、‘.’、‘/’以及 ${pipelineName} 占位符。

  • 以下选项由 OpenSearch Ingestion 设置,在管道配置中不受支持:

    • port

    • ssl

    • sslKeyFile

    • sslKeyCertChainFile

    • authentication

    • unauthenticated_health_check

    • useAcmCertForSSL

    • unframed_requests

    • proto_reflection_service

    • thread_count

    • request_timeout

    • max_connection_count

    • acmPrivateKeyPassword

    • acmCertIssueTimeOutMillis

    • health_check_service

    • acmCertificateArn

    • awsRegion

OTel 跟踪组处理器

OTel 跟踪组处理器具有以下要求和限制:

  • aws 选项为必填项,必须包含以下选项:

    • sts_role_arn

    • region

    • hosts

  • sts_role_arn选项指定的角色与您在 OpenSearch 接收器配置中指定的管道角色相同。

  • 不支持 usernamepasswordcertinsecure 选项。

  • aws_sigv4 选项为必填项,必须设置为 true。

  • 不支持 sin OpenSearch k 插件serverless中的选项。Otel 跟踪组处理器目前不适用于 OpenSearch 无服务器集合。

  • 管道配置主体中的 otel_trace_group 处理器数量不能超过 8 个。

OTel 跟踪处理器

OTel 跟踪处理器具有以下要求和限制:

  • trace_flush_interval 选项的值不能超过 300 秒。

服务映射处理器

服务映射处理器具有以下要求和限制:

  • window_duration 选项的值不能超过 300 秒。

S3 源

S3 源插件具有以下要求和限制:

  • aws 选项为必填项,必须包含 regionsts_role_arn 选项。

  • records_to_accumulate 选项的值不能超过 200。

  • maximum_messages 选项的值不能超过 10。

  • 如果指定,则 disable_bucket_ownership_validation 选项必须设置为 false。

  • 如果指定,则 input_serialization 选项必须设置为 parquet