使用爬网程序添加表

Amazon Glue 爬网程序可帮助发现数据集的架构，并在 Amazon Glue Data Catalog 中将其注册为表。爬网程序会遍历您的数据并确定架构。此外，爬网程序还可以检测并注册分区。有关更多信息，请参阅《Amazon Glue 开发人员指南》中的定义爬网程序。可以从 Athena 查询成功抓取的数据中的表。

注意

Athena 不承认您为 Amazon Glue 爬网程序指定的排除模式。例如，如果您有一个 Amazon S3 存储桶，其中包含 .csv 和 .json 文件，并且您从爬网程序中排除了 .json 文件时，Athena 会查询两组文件。要避免这种情况，请将要排除的文件放置在其他位置。

创建 Amazon Glue 爬网程序

您可以通过在 Athena 控制台中启动，然后以集成方式使用 Amazon Glue 控制台来创建爬网程序。创建爬网程序时，您可以在 Amazon S3 中指定要爬取的数据位置。

在 Amazon Glue 中从 Athena 控制台开始创建爬网程序

从 https://console.aws.amazon.com/athena/ 打开 Athena 控制台。
在查询编辑器中，选择 Tables and views（表和视图）旁的 Create（创建），然后选择 Amazon Glue crawler（爬网程序）。
在 Amazon Glue 控制台的 Add crawler (添加爬网程序) 页面上，按照步骤创建爬网程序。有关更多信息，请参阅本指南中的使用 Amazon Glue 爬网程序和《Amazon Glue 开发人员指南》中的填充 Amazon Glue Data Catalog。

注意

在爬取之后，Amazon Glue 爬网程序会自动分配某些表元数据，以帮助它与其他外部技术（如 Apache Hive、Presto 和 Spark）兼容。有时，爬网程序可能会错误地分配元数据属性。在使用 Athena 查询表之前，手动更正 Amazon Glue 中的属性。有关更多信息，请参阅《Amazon Glue 开发人员指南》中的查看和编辑表详细信息。

当 CSV 文件将每个数据字段都用引号引起来，使 serializationLib 属性错误时，Amazon Glue 可能会错误分配元数据。有关更多信息，请参阅处理引号中包含的 CSV 数据。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用表单添加表

将多个数据源和爬网程序结合使用