使用流式传输数据源 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

使用流式传输数据源

您可以创建连续运行并使用来自串流源的数据的串流提取、转换和负载(ETL)任务,例如 Amazon Kinesis Data Streams、Apache Kafka 和 Amazon Managed Streaming for Apache Kafka(Amazon MSK)。

配置流式传输数据源的属性

  1. 转到新任务或已保存任务的可视化图形编辑器。

  2. 在图形中为 Kafka 或 Kinesis Data Streams 选择数据源节点。

  3. 选择 Data source properties (数据源属性) 选项卡,然后输入以下信息:

    Kinesis
    • Kinesis source type(Kinesis 源类型):选择选项 Stream details(流式传输详细信息)可使用直接访问串流源,或选择 Data Catalog table(数据目录表)使用存储在其中的信息。

      如果选择 Stream details(流式传输详细信息),请指定以下附加信息。

      • Location of data stream(数据流的位置):选择流式传输位于当前用户账户内,还是位于其他账户内。

      • Region(区域):选择存在流式传输的 Amazon Web Services 区域。此信息用于构建用于访问数据流的 ARN。

      • Stream ARN(流式传输 ARN):输入 Kinesis 数据流的 Amazon Resource Name (ARN)。如果流式传输位于当前账户内,则可以从下拉列表中选择流式传输名称。您可以使用搜索字段按名称或 ARN 搜索数据流。

      • Data format(数据格式):从列表中选择数据流使用的格式。

        Amazon Glue Studio 会自动从串流数据中检测架构。

      如果选择 Data Catalog table(数据目录表),请指定以下附加信息。

      • Database (数据库):(可选)在 Amazon Glue 数据目录中选择数据库,该数据库包含与串流数据源关联的表。您可以使用搜索字段按名称搜索数据库。

      • Table (表):(可选)从列表中选择与源数据关联的表。此表必须已存在于 Amazon Glue 数据目录中。您可以使用搜索字段按名称搜索表。

      • Detect schema (检测架构):选择该选项,允许 Amazon Glue Studio 从串流数据检测架构,而不是使用数据目录表中的架构信息。如果选择 Stream details(流式传输详细信息)选项,则会自动启用此选项。

    • Starting position(起始位置):预设情况下,ETL 任务会使用 Earliest(最早)选项,这意味着从流式传输中最早的可用记录开启读取数据。您也可以选择 Latest(最新),表示 ETL 任务应该从流式传输中最新的记录之后开启读取。

    • Window size (窗口大小):默认情况下,在 100 秒的时段内处理 ETL 任务和写出数据。这可以实现数据的高效处理,并允许对晚于预计时间到达的数据执行聚合。您可以修改此窗口大小以提高及时性或聚合精度。

      Amazon Glue 流式传输任务使用检查点而非任务书签来跟踪已读取的数据。

    • Connection options(连接选项):展开此部分以添加键值对,指定其他连接选项。有关您可在此处指定的选项的信息,请参阅Amazon Glue 开发人员指南中的 "connectionType": "kinesis"

    Kafka
    • Apache Kafka source(Apache Kafka 源):选择选项 Stream details(流式传输详细信息)可使用直接访问串流源,或选择 Data Catalog table(数据目录表)使用存储在其中的信息。

      如果选择 Data Catalog table(数据目录表),请指定以下附加信息。

      • Database (数据库):(可选)在 Amazon Glue 数据目录中选择数据库,该数据库包含与串流数据源关联的表。您可以使用搜索字段按名称搜索数据库。

      • Table (表):(可选)从列表中选择与源数据关联的表。此表必须已存在于 Amazon Glue 数据目录中。您可以使用搜索字段按名称搜索表。

      • Detect schema (检测架构):选择该选项,允许 Amazon Glue Studio 从串流数据检测架构,而不是将架构信息存储于数据目录表。如果选择 Stream details(流式传输详细信息)选项,则会自动启用此选项。

      如果选择 Stream details(流式传输详细信息),请指定以下附加信息。

      • Connection name(连接名称):选择包含 Kafka 数据流的访问和身份验证信息的 Amazon Glue 连接。您必须使用与 Kafka 串流数据源的连接。如果连接不存在,可以使用 Amazon Glue 控制台为 Kafka 数据流创建连接。

      • Topic name(主题名称):输入要从中读取的主题的名称。

      • Data format(数据格式):选择从 Kafka 事件流读取数据时使用的格式。

    • Starting position(起始位置):预设情况下,ETL 任务会使用 Earliest(最早)选项,这意味着从流式传输中最早的可用记录开启读取数据。您也可以选择 Latest(最新),表示 ETL 任务应该从流式传输中最新的记录之后开启读取。

    • Window size (窗口大小):默认情况下,在 100 秒的时段内处理 ETL 任务和写出数据。这可以实现数据的高效处理,并允许对晚于预计时间到达的数据执行聚合。您可以修改此窗口大小以提高及时性或聚合精度。

      Amazon Glue 流式传输任务使用检查点而非任务书签来跟踪已读取的数据。

    • Connection options(连接选项):展开此部分以添加键值对,指定其他连接选项。有关您可在此处指定的选项的信息,请参阅Amazon Glue 开发人员指南中的 "connectionType": "kafka"

注意

流式传输数据源当前不支持数据预览。