连接参数 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接参数

下表详细介绍了每个数据存储的 Amazon Glue 连接所支持的 Python 属性。

Amazon Redshift 连接参数

与亚马逊 Redshift 的连接支持以下 Python Amazon Glue 连接参数。

类型 描述 约束 必需
auto_create 类型:boolean 表示如果用户不存在,是否应创建该用户。默认值为 false true, false
aws_secret_arn 类型:string 用于检索连接附加参数的密文 ARN。 有效 ARN
cluster_identifier 类型:string - maxLength: 63 Amazon Redshift 集群的集群标识符。 ^(?!.*—)[a-z][a-z0-9-]{0,61}[a-z0-9]$
database 类型:string - maxLength: 127 要连接的数据库的名称。
database_metadata_current_db_only 类型:boolean 表示应用程序是否支持多数据库数据共享目录。默认为 true,表示应用程序不支持多数据库数据共享目录,以实现向后兼容。 true, false
db_groups 类型:string 以逗号分隔的列表,包含 db_user 在当前会话中加入的现有数据库组名称。
db_user 类型:string 用于 Amazon Redshift 的用户 ID。
host 类型:string - maxLength: 256 Amazon Redshift 集群的主机名。
iam 类型:boolean 用于启用或禁用连接的基于 IAM 的身份验证的标志。默认值为 false true, false
iam_disable_cache 类型:boolean 此选项指定是否缓存 IAM 凭证。默认值为 true。当对 API 网关的请求受到限制时,这样可以提高性能。 true, false
max_prepared_statements 类型:integer 可同时打开的已准备报表的最大数量。
numeric_to_float 小数到浮点数 指定是否将 NUMERIC 数据类型值转换为十进制。默认情况下,NUMERIC 值以 decimal.Decimal Python 对象的形式接收。由于结果可能被四舍五入,因此不建议偏好高精度的使用场景启用此选项。在启用此选项之前,请参考有关 decimal.Decimal 的 Python 文档,以了解 decimal.Decimalfloat 之间的权衡。默认值为 false true, false
port 类型:integer Amazon Redshift 集群的端口号。 范围 1150-65535
profile 类型:string - maxLength: 256 包含 Amazon CLI使用的凭证和设置的配置文件名称。
region 类型:string 集群所在的 Amazon 区域。 有效 Amazon 区域
serverless_acct_id 类型:string - maxLength: 256 与 Amazon Redshift 无服务器资源关联的 Amazon 账户 ID。
serverless_work_group 类型:string - maxLength: 256 Amazon Redshift Serverless 端点工作组的名称。
ssl 类型:boolean true(如果已启用 SSL)。 true, false
ssl_mode 类型:枚举[verify-ca, verify-full, null]) 连接到 Amazon Redshift 的安全性。verify-ca(必须使用 SSL 并验证服务器证书)和 verify-full(必须使用 SSL。必须验证服务器证书,服务器主机名必须与证书上的主机名属性一致)。有关更多信息,请参阅 Amazon Redshift 文档中的为连接配置安全选项。默认值为 verify-ca verify-ca, verify-full
timeout 类型:integer 连接服务器时发生超时前等待的秒数。 0

Athena 连接参数

与 Athena 的连接支持以下 Python Amazon Glue 连接参数。

类型 描述 约束 必需
aws_access_key_id 类型:string - maxLength: 256 指定与 IAM 账户关联的 Amazon 访问密钥。我们建议将此信息存储在 aws_secret 中。 长度 16-128
aws_secret_access_key 类型:string - maxLength: 256 Amazon 访问密钥的秘密部分。我们建议将此信息存储在 aws_secret 中。
aws_secret_arn 类型:string 用于检索连接附加参数的密文 ARN。 有效 ARN
catalog_name 类型:string - maxLength: 256 目录,其中包含使用驱动程序访问的数据库和表。有关目录的信息,请参见DataCatalog
duration_seconds 类型:number 角色会话的持续时间(以秒为单位)。该设置可以具有 1 小时到 12 小时之间的值。默认情况下,持续时间设置为 3600 秒(1 小时)。 范围从 900 秒(15 分钟)到角色的最大会话持续时间设置
encryption_option 类型:枚举[SSE_S3, SSE_KMS, CSE_KMS, null]) Amazon S3 的静态加密。请参阅 Athena 指南中的静态加密部分。 SSE_S3, SSE_KMS, CSE_KMS
kms_key 类型:string - maxLength: 256 Amazon KMS 如果CSE_KMS在中使用,则按键encrytion_option
poll_interval 类型:number 在 Athena 中轮询查询结果状态的间隔时间(秒)。
profile_name 类型:string - maxLength: 256 应使用其凭据对向 Athena 发出的请求进行身份验证的 Amazon 配置文件的名称。
region_name 类型:string 运行查询的 Amazon 区域。 有效 Amazon 区域
result_reuse_enable 类型:boolean 启用重复使用以前的查询结果。 true, false
result_reuse_minutes 类型:integer 以分钟为单位指定 Athena 应考虑的先前查询结果的重用最长使用期限。默认值为 60。 >=1
role_arn 类型:string 用于运行查询的角色。 有效 ARN
schema_name 类型:string - maxLength: 256 数据库使用的默认模式名称。
s3_staging_dir 类型:string - maxLength: 1024 Amazon S3 中存储查询结果的位置。 必须使用 s3_staging_dirwork_group
work_group 类型:string 将运行查询的工作组。有关工作组的信息,请参阅WorkGroup ^[a-zA-Z0-9._-]{1,128}$ 必须使用 s3_staging_dirwork_group

Snowflake 连接参数

与 Snowflake 的连接支持以下 Python Amazon Glue 连接参数。

Snowflake 连接参数

类型 描述 约束 必需
account 类型:string - maxLength: 256 Snowflake 账户标识符。账户标识符不包括 snowflakecomputing.com 后缀。
arrow_number_to_decimal 类型:boolean 默认为 False,这意味着 NUMBER 列的值将以双精度浮点数 (float64) 的形式返回。设置为 True 时,在调用 fetch_pandas_all()fetch_pandas_batches() 方法时,将 DECIMAL 列值返回为十进制数 (decimal.Decimal)。 true, false
autocommit 类型:boolean 默认为 false,这与 Snowflake 参数 AUTOCOMMIT 一致。设置为 truefalse,可分别启用或禁用会话中的 autocommit 模式。 true, false
aws_secret_arn 类型:string 用于检索连接附加参数的密文 ARN。 有效 ARN
client_prefetch_threads 类型:integer 用于下载结果集的线程数(默认为 4)。增大该值可提高提取性能,但需要更多内存。
database 类型:string - maxLength: 256 要使用的默认数据库名称。
login_timeout 类型:integer 登录请求的超时(秒)。默认为 60 秒。如果 HTTP 响应不是 success,则登录请求会在超时后终止。
network_timeout 类型:integer 所有其他操作的超时(秒)。默认为 none(无限)。如果 HTTP 响应不是 success,一般请求就会在超时长度后放弃。
paramstyle 类型:string - maxLength: 256 从 Python 代码执行 SQL 查询时用于参数替换的占位符语法。客户端绑定默认为 pyformat。指定 qmarknumeric 可更改服务器端绑定的绑定变量格式。
role 类型:string - maxLength: 256 要使用的默认角色名称。
schema 类型:string - maxLength: 256 数据库使用的默认模式名称。
timezone 类型:string - maxLength: 128 默认为“无”,这与 Snowflake 参数 TIMEZONE 一致。设置为有效时区(如 America/Los_Angeles)以设置会话时区。 时区,格式类似 America/Los_Angeles
validate_default_parameters 类型:boolean 设为 true,当指定的数据库、模式或存储库不存在时会引发异常。默认值为 false
warehouse 类型:string - maxLength: 256 要使用的默认存储库名称。