步骤 5:创建使用 OpenSearch 连接的任务 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

步骤 5:创建使用 OpenSearch 连接的任务

为您的 ETL 任务创建角色后,您可以在 Amazon Glue Studio 中创建一个任务,改任务使用 Open Spark ElasticSearch 的连接和连接器。

如果您的任务在 Amazon Virtual Private Cloud(Amazon VPC)中运行,请确保 VPC 配置正确。有关更多信息,请参阅 为 ETL 任务配置 VPC

要创建使用 Elasticsearch Spark Connector 的任务

  1. 在 Amazon Glue Studio 中,选择 Connectors(连接器)。

  2. Your connections (您的连接) 列表中,选定您刚才创建的连接并选择 Create job (创建任务)

  3. 在可视任务编辑器中,选择数据源节点。在右侧 Data source properties - Connector (数据源属性 – 连接器) 选项卡上,配置连接器的其他信息。

    1. 选择 Add schema (添加架构),然后输入数据源中的数据集架构。连接不使用存储在数据目录中的表,这意味着 Amazon Glue Studio 不了解数据架构。您必须手动提供此架构信息。有关如何使用架构编辑器的说明,请参阅编辑自定义转换节点的架构

    2. 展开 Connection options (连接选项)

    3. 选择 Add new option (添加新选项),然后输入尚未在 Amazon 密钥中输入的连接器所需的信息:

      • es.nodes : https://<ElasticSearch endpoint>

      • es.port : 443

      • path : test

      • es.nodes.wan.only. : true

      
        屏幕截图显示任务图表的数据源节点(选定)。选定右侧面板中的 Data source properties (数据源属性) 选项卡。连接字段的值为 MyEsConn。在“连接选项”标题下,添加了其他选项。键值对是(es.nodes, https://my-elasticsearch-endpo...)、(es.port, 443)、(path, test)、(es.nodes.wan.only, true)。

      有关这些连接选项的说明,请参阅:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

  4. 将目标节点添加到如将节点添加到任务图编辑数据目标节点中所述的图表中。

    您的数据目标可以是 Amazon S3,也可以使用 Amazon Glue Data Catalog 或连接器的信息将数据写入其他位置。例如,您可以使用数据目录表将数据库写入 Amazon RDS,也可以将连接器用作数据目标来写入 Amazon Glue 中不支持的数据存储。

    
      屏幕截图显示任务图表的两个节点,即连接转换节点和 ElasticSearch Connector 的数据目标节点(选定)。选定右侧面板中的 Node properties (节点属性) 选项卡。显示的值有:名称 –“ElasticSearch Spark Connector”,节点类型 – ElasticSearch Spark Connector。将显示节点类型选择的下拉列表,并显示可用数据目标列表,其中包括 S3、数据目录、用于 Google BigQuery 的 Amazon Glue 连接器、Apache Hudi Connector 和 ElasticSearch Spark Connector(选定)。

    如果为数据目标选择连接器,则您必须选择为该连接器创建的连接。此外,如果连接器提供程序需要,则您必须添加选项以向连接器提供其他信息。如果您使用包含 Amazon 密钥信息的连接,则无需在连接选项中提供用户名和密码身份验证。

    
      屏幕截图显示任务图表的四个节点、一个 ElasticSearch 源节点、一个数据目录源节点、一个连接转换节点和一个 ElasticSearch 数据目标节点(选定)。选定右侧面板中的 Data target properties (数据目标属性) 选项卡。连接字段的值为 MyEsConn。在连接选项标题下,添加了其他选项。键值对是 (es.net.http.auth.user, MyUser)、(path, es_write_loc)、(es.nodes.wan.only, true)、(es.nodes, https://search-glue-etl-job-vtr...)、(es.net.http.auth.pass, HiddenPassword) 和 (es.port, 443)。
  5. (可选)添加如编辑数据转换节点中所述的其他数据源和一个或多个转换节点。

  6. 从步骤 3 开始,配置如修改任务属性中所述的任务属性,然后保存任务。

下一步

步骤 6:运行任务