步骤 5:创建使用 OpenSearch 连接的任务 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

步骤 5:创建使用 OpenSearch 连接的任务

为您的 ETL 任务创建角色后,您可以在 Amazon Glue Studio 中创建一个任务,改任务使用 Open Spark ElasticSearch 的连接和连接器。

如果您的任务在 Amazon Virtual Private Cloud(Amazon VPC)中运行,请确保 VPC 配置正确。有关更多信息,请参阅 为 ETL 任务配置 VPC

要创建使用 Elasticsearch Spark Connector 的任务
  1. 在 Amazon Glue Studio 中,选择 Connectors(连接器)。

  2. Your connections (您的连接) 列表中,选定您刚才创建的连接并选择 Create job (创建任务)

  3. 在可视任务编辑器中,选择数据源节点。在右侧 Data source properties - Connector (数据源属性 – 连接器) 选项卡上,配置连接器的其他信息。

    1. 选择 Add schema (添加架构),然后输入数据源中的数据集架构。连接不使用存储在数据目录中的表,这意味着 Amazon Glue Studio 不了解数据架构。您必须手动提供此架构信息。有关如何使用架构编辑器的说明,请参阅编辑自定义转换节点的架构

    2. 展开 Connection options (连接选项)

    3. 选择 Add new option (添加新选项),然后输入尚未在 Amazon 密钥中输入的连接器所需的信息:

      • es.nodes: https://<OpenSearch domain endpoint>

      • es.port: 443

      • path: test

      • es.nodes.wan.only.: true

      有关这些连接选项的说明,请参阅:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

  4. 将目标节点添加至图表中。

    您的数据目标可以是 Amazon S3,也可以使用 Amazon Glue Data Catalog 或连接器的信息将数据写入其他位置。例如,您可以使用数据目录表将数据库写入 Amazon RDS,也可以将连接器用作数据目标来写入 Amazon Glue 中不支持的数据存储。

    如果为数据目标选择连接器,则您必须选择为该连接器创建的连接。此外,如果连接器提供程序需要,则您必须添加选项以向连接器提供其他信息。如果您使用包含 Amazon 密钥信息的连接,则无需在连接选项中提供用户名和密码身份验证。

  5. (可选)添加如编辑 Amazon Glue 托管数据转换节点中所述的其他数据源和一个或多个转换节点。

  6. 从步骤 3 开始,配置如修改任务属性中所述的任务属性,然后保存任务。

后续步骤

步骤 6:运行任务