使用流数据源 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用流数据源

您可以创建连续运行的流式处理提取提取、转换和加载 (ETL) 作业和使用 Amazon Kinesis Data Streams、Apache Kafka 和Amazon Managed Streaming for Apache Kafka(亚马逊 MSK)。

配置流数据源的属性

  1. 转到新作业或已保存作业的可视图形编辑器。

  2. 在图形中为 Kafka 或 Kinesis 数据流选择一个数据源节点。

  3. 选择数据源属性选项卡,然后输入以下信息:

    • 数据库:(可选)在Amazon Glue Data Catalog,其中包含与流数据源关联的表。可以使用搜索字段按数据库名称搜索数据库。如果您选择选项检测架构,不需要填充此字段。

    • :(可选)从列表中选择与源数据关联的表。此表必须已存在于Amazon Glue Data Catalog。您可以使用搜索字段按表名称搜索表。如果您选择选项检测架构,不需要填充此字段。

    • 检测架构:选择此选项以使AmazonGlue Studio 从流数据检测架构,而不是将架构信息存储在数据目录表中。

    • 窗口大小:默认情况下,ETL 作业在 100 秒的时段内处理和写出数据。这可以使数据能够高效地处理,并允许对迟于预计到达的数据执行聚合。可以修改此窗口大小以提高及时性或聚合精度。

      Amazon Glue流式处理作业使用检查点而非作业书签来跟踪已读取的数据。

    • 高级连接选项:展开此部分以添加键值对以指定其他连接选项。有关可以在此指定哪些选项的信息,请参阅“connectionType”: “kafka”或者“connectionType”: “动力”中的Amazon Glue开发人员指南

注意

流数据源当前不支持数据预览。