定义爬网程序 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

定义爬网程序

您可以使用爬网程序用表填充 AWS Glue 数据目录。这是大多数 AWS Glue 用户使用的主要方法。爬网程序可以在单次运行中爬取多个数据存储。完成后,爬网程序会在 Data Catalog 中创建或更新一个或多个表。您在 AWS Glue 中定义的提取、转换和加载 (ETL) 作业使用这些 Data Catalog 表作为源和目标。ETL 作业从在源和目标 Data Catalog 表中指定的数据存储中读取内容并向其中写入内容。

有关使用 AWS Glue 控制台添加爬网程序的更多信息,请参阅在 AWS Glue 控制台上使用爬网程序