爬网程序先决条件 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

爬网程序先决条件

您为爬网程序指定的 AWS Identity and Access Management (IAM) 角色必须有权访问已爬取的数据存储,并有权在 AWS Glue 数据目录中创建和更新表和分区。

对于您的爬网程序,您可以创建角色并附加以下策略:

  • AWSGlueServiceRole 托管策略,该策略授予对 AWS 所需的权限Data Catalog

  • 授予数据源权限的内联策略。

更快的方法是让 AWS Glue 控制台爬网程序向导为您创建一个角色。它创建的角色专门用于爬网程序,并包含 AWSGlueServiceRole AWS 托管策略以及指定数据源所需的内联策略。

如果您为爬网程序指定了现有角色,请确保它包含 AWSGlueServiceRole 策略或等效策略(或此策略的范围缩小)以及所需的内联策略。例如,对于 Amazon S3 数据存储,内联策略至少为以下内容:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

对于 Amazon DynamoDB 数据存储,策略至少为以下内容:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

此外,如果爬网程序读取 AWS Key Management Service (AWS KMS) 加密的 Amazon S3 数据,则 IAM 角色必须对 AWS KMS 密钥具有解密权限。有关更多信息,请参阅步骤 2: 为 IAM 创建 AWS Glue 角色