第 5 步:创建使用弹性搜索连接的作业 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第 5 步:创建使用弹性搜索连接的作业

为 ETL 作业创建角色后,您可以在AmazonGlue 工作室,使用连接和连接器的开放火花 ElasticSearch。

如果您的作业在 Amazon Virtual Private Cloud (Amazon VPC) 中运行,请确保 VPC 配置正确。有关更多信息,请参阅为您的 ETL 任务配置 VPC

创建使用弹性搜索火花连接器的作业

  1. InAmazonGlue 工作室,选择连接器

  2. 您的连接列表中,选择您刚才创建的连接,然后选择创建作业

  3. 在可视作业编辑器中,选择 “数据源” 节点。在右侧,在数据源属性-连接器选项卡上,配置连接器的其他信息。

    1. 选择添加架构,然后输入数据源中数据集的方案。连接不使用存储在数据目录中的表,这意味着AmazonGlue 工作室不知道数据的模式。您必须手动提供此架构信息。有关如何使用架构编辑器的说明,请参阅在自定义转换节点中编辑架构

    2. Expand连接选项

    3. 选择添加新选项,然后输入连接器所需的信息,该连接器未在Amazon密钥:

      • es.nodes : https://<ElasticSearch endpoint>

      • es.port : 443

      • path : test

      • es.nodes.wan.only. : true

      
        屏幕截图显示作业图的数据源节点(选定)。右侧面板中的 “数据源属性” 选项卡处于选中状态。连接字段的值为 MyEsconn。在标题下,添加了附加选项。键值对是(节点,https://my-elasticsearch-endpo...),(ES.port,443),(路径,测试),(节点,只有,真)。

      有关这些连接选项的说明,请参阅:https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html

  4. 将目标节点添加到图形中,如将节点添加到作业图编辑数据目标节点

    您的数据目标可以是 Amazon S3,也可以使用Amazon Glue Data Catalog或连接器在其他位置写入数据。例如,您可以使用数据目录表写入 Amazon RDS 中的数据库,也可以使用连接器作为数据目标,以写入Amazon Glue。

    
      屏幕快照显示了作业图的两个节点,即连接转换节点和 ElasticSearch 连接器的数据目标节点(选定)。选中右侧面板中的 “节点属性” 选项卡。显示的值包括:名称-“ElasticSearch 火花连接器”,节点类型-ElasticSearch 火花连接器 将显示节点类型选择的下拉列表,并显示可用数据目标列表,其中包括 S3、数据目录、Amazon Glue用于谷歌大查询、阿帕奇胡迪连接器和 ElasticSearch 火花连接器的连接器(已选定)。

    如果为数据目标选择连接器,则必须选择为该连接器创建的连接。此外,如果连接器提供程序需要,则必须添加选项以向连接器提供其他信息。如果您使用的连接包含Amazon密钥,则无需在连接选项中提供用户名和密码身份验证。

    
      屏幕快照显示了作业图的四个节点、一个 ElasticSearch 源节点、一个数据目录源节点、一个联接转换节点和一个 ElasticSearch 数据目标节点(选定)。选中右侧面板中的 “数据目标属性” 选项卡。连接字段的值为 MyEsconn。在 “连接选项” 标题下,添加了其他选项。键值对是(如网络 .http.auth.user,MyUser)、(路径,ES_WARTE_loc)、(仅限节点,真)、(节点,https://search-glue-etl-job-vtr...)、(特别是 .net.http.auth.pass,隐藏密码)和(电子端口,443)。
  5. (可选)添加其他数据源和一个或多个转换节点,如编辑数据转换节点

  6. 配置作业属性,如修改作业属性,从步骤 3 开始,然后保存作业。

下一步

第 6 步:运行作业