Amazon Glue 连接属性

本主题包含有关 Amazon Glue 连接属性的信息。

必需的连接属性

在 Amazon Glue 控制台上定义连接时，您必须提供以下属性值：

连接名称

为连接输入一个唯一名称。

连接类型

选择 JDBC 或特定的连接类型之一。

有关 JDBC 连接类型的详细信息，请参阅Amazon Glue JDBC 连接属性

选择 Network (网络) 以连接到 Amazon Virtual Private Cloud 环境（Amazon VPC）中的数据源。

根据您选择的类型，Amazon Glue 控制台会显示其他必需字段。例如，如果选择 Amazon RDS，则必须选择数据库引擎。

需要 SSL 连接

选择此选项时，Amazon Glue 必须验证数据存储连接是通过受信任的安全套接字层（SSL）进行连接的。

有关更多信息（包括选择此选项时可用的其他选项），请参阅Amazon Glue SSL 连接属性。

选择 MSK 集群（仅适用于 Amazon managed streaming for Apache Kafka（MSK））

指定来自另一个 Amazon 账户的 MSK 集群。

Kafka 引导启动服务器 URL（仅限 Kafka）

指定引导服务器 URL 的逗号分隔的列表。包括端口号。例如：b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-2.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094, b-3.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094

Amazon DocumentDB 连接

以下属性用于设置 Amazon DocumentDB 连接。

HOST: （必填，字符串）Amazon DocumentDB 集群端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）其他连接参数。

身份验证

Amazon DocumentDB 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置通过 Amazon VPC 与 Amazon DocumentDB 之间的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

OpenSearch Service 连接

使用以下属性设置 Amazon Glue ETL 作业的 OpenSearch Service 连接。

域端点: Amazon OpenSearch Service 域端点的默认格式为 https://search-domainName-unstructuredIdContent.region.es.amazonaws.com。有关如何确定域端点的更多信息，请参阅《Amazon OpenSearch Service 开发人员指南》中的 Creating and managing Amazon OpenSearch Service domains。
端口：: 端点上的端口已打开。
Amazon 密钥: Amazon Secrets Manager 中密钥的密钥名称。Amazon Glue 将使用密钥的键连接到 OpenSearch Service。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。

配置与托管在 Amazon VPC 中的 OpenSearch Service 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Amazon Redshift 连接

以下属性用于设置 Amazon Redshift 连接。

HOST: （必填，字符串）Amazon Redshift 集群端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的 Amazon Redshift 数据库的名称。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。

身份验证

Amazon Redshift 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。
IAM：使用基于 IAM 角色的访问权限验证身份。

配置与托管在 Amazon VPC 中的 Amazon Redshift 端点之间的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Google BigQuery 连接

以下属性用于设置在 Amazon Glue ETL 作业中使用的 Google BigQuery 连接。有关更多信息，请参阅 BigQuery 连接。

PROJECT_ID: （必填，字符串）Google Cloud Platform 中的项目 ID。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。无默认值。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

Google BigQuery 连接支持以下身份验证类型：

CUSTOM：使用存储在 Amazon Secrets Manager 中的 Google Cloud 服务账户凭证验证身份。

通过 Amazon VPC 配置 Google BigQuery 连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

MySQL 连接属性

以下属性用于设置 MySQL 统一连接。

HOST: （必填，字符串）MySQL 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的数据库的名称。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。无默认值。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

MySQL 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 MySQL 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Oracle 连接属性

以下属性用于设置 Oracle 统一连接。

HOST: （必填，字符串）Oracle 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的数据库的名称。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。默认值为 UPPERCASE_ONLY。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

Oracle 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 Oracle 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

PostgreSQL 连接属性

以下属性用于设置 PostgreSQL 统一连接。

HOST: （必填，字符串）PostgreSQL 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的数据库的名称。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。默认值为 LOWERCASE_ONLY。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

PostgreSQL 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 PostgreSQL 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

SAP HANA 连接

以下属性用于设置 Amazon Glue ETL 作业的 SAP HANA 连接。

HOST: （必填，字符串）SAP HANA 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的 SAP HANA 数据库的名称。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。默认值为 UPPERCASE_ONLY。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

SAP HANA 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 SAP HANA 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Snowflake 连接

以下属性用于设置在 Amazon Glue ETL 作业中使用的 Snowflake 连接。爬取 Snowflake 时，请使用 JDBC 连接。

HOST: （必填，字符串）Snowflake 主机 URL。该值必须以 .snowflakecomputing.com 或 .snowflakecomputing.cn 结尾。有关 Snowflake 端点 URL 的更多信息，请参阅 Snowflake 文档中的 Connecting to Your Accounts。
PORT: （可选，字符串）Snowflake 连接的端口号。
DATABASE: （可选，字符串）Snowflake 数据库的名称。
SCHEMA: （可选，字符串）Snowflake 架构名称。
WAREHOUSE: （可选，字符串）Snowflake 仓库名称。
JDBC_PARAMS: （可选，字符串）Snowflake 连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。默认值为 UPPERCASE_ONLY。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。

身份验证

Snowflake 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。
OAUTH2：使用 OAuth2 授权码授权类型验证身份。
CUSTOM：使用存储在 Amazon Secrets Manager 中的用户名和 PEM 私有密钥验证身份。

配置与托管在 Amazon VPC 中的 Snowflake 端点的连接时，请使用以下属性。Amazon PrivateLink

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

SQL Server 连接属性

以下属性用于设置 SQL Server 统一连接。

HOST: （必填，字符串）SQL Server 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的数据库的名称。
ENFORCE_SSL: （可选，布尔值）是否强制要求 SSL 连接。默认值为 false。允许的值：true、false。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。
CATALOG_CASING_FILTER: （可选，字符串）控制实体名称的处理方式以及要接受的来自外部源的名称。仅当连接用于 Data Catalog API 和目录联合身份验证时，此属性才适用。此属性不适用于 Amazon Glue ETL 作业或其他连接相关 API。无默认值。允许的值：LOWERCASE_ONLY、UPPERCASE_ONLY。

身份验证

SQL Server 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 SQL Server 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Teradata Vantage 连接

以下属性用于设置 Amazon Glue ETL 作业的 Teradata Vantage 连接。

HOST: （必填，字符串）Teradata 数据库端点的主机名。
PORT: （必填，字符串）端口号。该值必须为一个有效的端口号。
DATABASE: （必填，字符串）要连接的 Teradata 数据库的名称。
ROLE_ARN: （可选，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。
JDBC_PARAMS: （可选，字符串）该连接的其他 JDBC 参数。

身份验证

Teradata 连接支持以下身份验证类型：

BASIC：使用存储在 Amazon Secrets Manager 中的用户名和密码验证身份。

配置与托管在 Amazon VPC 中的 Teradata Vantage 端点的连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Vertica 连接

使用以下属性设置 Amazon Glue ETL 作业的 Vertica 连接。

Vertica 主机: Vertica 安装的主机名。
Vertica 端口: 可用于访问 Vertica 安装的端口。
Amazon 密钥: Amazon Secrets Manager 中密钥的密钥名称。Amazon Glue 将使用密钥的键连接到 Vertica。

配置与 Amazon VPC 中的 Vertica 端点的连接时，请使用以下属性。

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

Azure Cosmos 连接

使用以下属性设置 Amazon Glue ETL 作业的 Azure Cosmos 连接。

Azure Cosmos DB 账户端点 URI: 用于连接到 Azure Cosmos 的端点。有关更多信息，请参阅 Azure 文档。
Amazon 密钥: Amazon Secrets Manager 中密钥的密钥名称。Amazon Glue 将使用密钥的键连接到 Azure Cosmos。

Azure SQL 连接

使用以下属性设置 Amazon Glue ETL 作业的 Azure SQL 连接。

Azure SQL URL

Azure SQL 端点的 JDBC URL。

该 URL 必须为以下格式：jdbc:sqlserver://databaseServerName:databasePort;databaseName=azuresqlDBname;。

Amazon Glue 需要以下 URL 属性：

databaseName – Azure SQL 中要连接的默认数据库。

有关 Azure SQL 托管实例的 JDBC URL 的更多信息，请参阅 Microsoft 文档。

Amazon 密钥

Amazon Secrets Manager 中密钥的密钥名称。Amazon Glue 将使用密钥的键连接到 Azure SQL。

Salesforce 连接属性

以下属性用于设置 Salesforce 连接。

INSTANCE_URL: （必填，字符串）Salesforce 实例 URL。该值必须是一个有效的 Salesforce URL（例如 https://mycompany.my.salesforce.com）。
SALESFORCE_ENVIRONMENT: （必填，字符串）要连接的 Salesforce 环境。默认值为 Production。允许的值：Production、Sandbox。
ROLE_ARN: （必填，字符串）用于访问 Amazon Secrets Manager 和分配 IP 地址的 IAM 角色 ARN（如果指定了 Amazon VPC）。

身份验证

Salesforce 连接支持以下身份验证类型：

OAUTH2：使用 OAuth2 授权码和 JWT Bearer 授权类型验证身份。

通过 Amazon VPC 配置 Salesforce 连接时，请使用以下属性：

VPC: 选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。
子网: 选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。
安全组: 选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

以下是 Salesforce 的其他连接选项：

ENTITY_NAME（字符串）：（必填）用于读取/写入。您在 Salesforce 中的对象的名称。
API_VERSION（字符串）：（必填）用于读取/写入。您想要使用的 Salesforce Rest API 版本。
SELECTED_FIELDS（列表<字符串>）– 默认值：空（SELECT *）。用于读取。您想要为对象选择的列。
FILTER_PREDICATE（字符串）– 默认值：空。用于读取。应采用 Spark SQL 格式。
QUERY（字符串）– 默认值：空。用于读取。完整的 Spark SQL 查询。
PARTITION_FIELD（字符串）– 用于读取。用于分区查询的字段。
LOWER_BOUND（字符串）– 用于读取。所选分区字段的包含下限值。
UPPER_BOUND（字符串）– 用于读取。所选分区字段的排除上限值。
NUM_PARTITIONS（整型）– 默认值：1。用于读取。要读取的分区数。
IMPORT_DELETED_RECORDS（字符串）– 默认值：FALSE。用于读取。在查询时获取已删除的记录。
WRITE_OPERATION（字符串）– 默认值：INSERT。用于写入。值应为 INSERT、UPDATE、UPSERT、DELETE。
ID_FIELD_NAMES（字符串）– 默认值：null。仅用于 UPSERT。

Amazon Glue JDBC 连接属性

Amazon Glue Studio 现在可以为 MySQL、Oracle、PostgresSQL、Redshift 和 SQL Server 数据来源创建统一连接。这需要额外的步骤才能访问 Secrets Manager 和 VPC 资源，可能会产生额外费用。可以通过为相应连接选择连接名称，在 Amazon Glue Studio 中访问这些连接。

有关更多信息，请参阅注意事项。

Amazon Glue 可通过 JDBC 连接来连接到以下数据存储：

Amazon Redshift
Amazon Aurora
Microsoft SQL Server
MySQL
Oracle
PostgreSQL
Snowflake，使用 Amazon Glue 爬网程序时。
Aurora（如果使用原生 JDBC 驱动程序，则支持。并非所有驱动程序功能都可以利用）
Amazon RDS for MariaDB

重要

目前，ETL 任务只能在一个子网内使用 JDBC 连接。如果一个作业中有多个数据存储，则它们必须在同一子网，或者可以从该子网访问。

如果您选择为 Amazon Glue 爬网程序引入自己的 JDBC 驱动程序版本，则您的爬网程序将消耗 Amazon Glue 作业和 Amazon S3 中的资源，以确保您提供的驱动程序在您的环境中运行。额外的资源使用量将反映在您的账户中。此外，提供自己的 JDBC 驱动程序并不意味着爬网程序能够利用该驱动程序的所有功能。驱动程序仅限于在 Data Catalog 中定义连接中描述的属性。

以下是适用于 JDBC 连接类型的其他属性。

JDBC URL

输入 JDBC 数据存储的 URL。对于大多数数据库引擎，此字段将采用以下格式。在此格式中，将 protocol、host、port 和 db_name 替换为您自己的信息。

jdbc:protocol://host:port/db_name

根据数据库引擎，可能需要不同的 JDBC URL 格式。此格式可能稍微不同地使用冒号 (:) 和斜杠 (/) 或不同的关键字来指定数据库。

要让 JDBC 连接到数据存储，数据存储中需要 db_name。db_name 用于与提供的 username 和 password 建立网络连接。当连接时，Amazon Glue 可以访问数据存储中的其他数据库以运行爬网程序或运行 ETL 作业。

以下 JDBC URL 示例显示了多个数据库引擎的语法。

要连接到具有 dev 数据库的 Amazon Redshift 群集数据存储：

jdbc:redshift://xxx.us-east-1.redshift.amazonaws.com:8192/dev
要连接到具有 employee 数据库的 Amazon RDS for MySQL 数据存储：

jdbc:mysql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:3306/employee
要连接到具有 employee 数据库的 Amazon RDS for PostgreSQL 数据存储：

jdbc:postgresql://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:5432/employee
要连接到具有 employee 服务名称的 Amazon RDS for Oracle 数据存储：

jdbc:oracle:thin://@xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1521/employee

Amazon RDS for Oracle 的语法可以遵循以下模式。在这些模式中，将 host、port、service_name 和 SID 替换为您自己的信息。
- jdbc:oracle:thin://@host:port/service_name
- jdbc:oracle:thin://@host:port:SID
要连接到具有 employee 数据库的 Amazon RDS for Microsoft SQL Server 数据存储：

jdbc:sqlserver://xxx-cluster.cluster-xxx.us-east-1.rds.amazonaws.com:1433;databaseName=employee

Amazon RDS for SQL Server 的语法可以遵循以下模式：在这些模式中，将 server_name、port 和 db_name 替换为您自己的信息。
- jdbc:sqlserver://server_name:port;database=db_name
- jdbc:sqlserver://server_name:port;databaseName=db_name
要连接到 employee 数据库的 Amazon Aurora PostgreSQL 实例，请指定数据库实例的终端节点、端口和数据库名称：

jdbc:postgresql://employee_instance_1.xxxxxxxxxxxx.us-east-2.rds.amazonaws.com:5432/employee
要连接到有 employee 数据库的 Amazon RDS for MariaDB 数据存储，请指定数据库实例的端点、端口和数据库名称：

jdbc:mysql://xxx-cluster.cluster-xxx.aws-region.rds.amazonaws.com:3306/employee
警告
只有 Amazon Glue 爬网程序支持 Snowflake JDBC 连接。在 Amazon Glue 作业中使用 Snowflake 连接器时，请使用 Snowflake 连接类型。

要连接到 sample 数据库的 Snowflake 实例，请指定 Snowflake实例的端点、用户、数据库名称和角色名称。您可以选择添加 warehouse 参数。

jdbc:snowflake://account_name.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

重要
对于通过 JDBC 进行的 Snowflake 连接，将强制执行 URL 中参数的顺序，并且必须按照 user、db、role_name 和 warehouse 进行排序。
要使用 Amazon 私有链接连接到 sample 数据库的 Snowflake 实例，请按如下方式指定 Snowflake JDBC URL：

jdbc:snowflake://account_name.region.privatelink.snowflakecomputing.com/?user=user_name&db=sample&role=role_name&warehouse=warehouse_name

用户名

注意

我们建议您使用 Amazon 密钥存储连接凭证，而不是直接提供用户名和密码。有关更多信息，请参阅在 Amazon Secrets Manager 中存储连接凭证。

提供有权访问 JDBC 数据存储的用户名。

密码

输入对 JDBC 数据存储具有访问权限的用户名的密码。

端口：

输入 JDBC URL 中使用的端口以连接到 Amazon RDS Oracle 实例。只有在为 Amazon RDS Oracle 实例选择 Require SSL connection (需要 SSL 连接) 时会显示此字段。

VPC

选择包含您的数据存储的 Amazon Virtual Private Cloud (VPC) 的名称。Amazon Glue 控制台会列出当前区域的所有 VPC。

重要

在使用托管 Amazon 的 JDBC 连接（例如来自 Snowflake 的数据）时，您的 VPC 应该有一个 NAT 网关，用于将流量分成公有子网和私有子网。公有子网用于连接外部源，内部子网用于 Amazon Glue 处理。有关为外部连接配置 Amazon VPC 的信息，请阅读使用 NAT 设备连接到互联网或其他网络以及设置 Amazon VPC 以建立从 Amazon Glue 到 Amazon RDS 数据存储的 JDBC 连接。

子网

选择包含您的数据存储的 VPC 内的子网。Amazon Glue 控制台列出了您的 VPC 中的数据存储的所有子网。

安全组

选择与您的数据存储关联的安全组。Amazon Glue 需要一个或多个安全组且其入站源规则允许 Amazon Glue 进行连接。Amazon Glue 控制台列出了所有被授权对您的 VPC 进行入站访问的安全组。Amazon Glue 将这些安全组与连接到您的 VPC 的子网的弹性网络接口关联。

JDBC 驱动程序类名 - 可选

提供自定义 JDBC 驱动程序类名：

Postgres – org.postgresql.Driver 
  MySQL – com.mysql.jdbc.Driver, com.mysql.cj.jdbc.Driver 
  Redshift – com.amazon.redshift.jdbc.Driver, com.amazon.redshift.jdbc42.Driver  
  Oracle – oracle.jdbc.driver.OracleDriver 
  SQL Server – com.microsoft.sqlserver.jdbc.SQLServerDriver

JDBC 驱动程序 S3 路径 - 可选

向自定义 JDBC 驱动程序提供 Amazon S3 位置。这是 .jar 文件的绝对路径。如果您想提供自己的 JDBC 驱动程序，连接到您的爬网程序支持的数据库的数据源，则可以为参数 customJdbcDriverS3Path 和 customJdbcDriverClassName 指定值。  使用客户提供的 JDBC 驱动程序仅限于所需的必需的连接属性。

Amazon Glue MongoDB 和 MongoDB Atlas 连接属性

以下是适用于 MongoDB 或 MongoDB Atlas 连接类型的其他属性。

MongoDB URL

输入 MongoDB 或 MongoDB Atlas 数据存储的 URL：

对于 MongoDB：mongodb://host:port/database。主机可以是主机名、IP 地址或 UNIX 域套接字。如果连接字符串未指定端口，则使用默认的 MongoDB 端口 27017。
对于 MongoDB Atlas：mongodb+srv://server.example.com/database。主机可以是后面对应于 DNS SRV 记录的主机名。SRV 格式不需要端口，将使用默认的 MongoDB 端口 27017。

用户名

注意

我们建议您使用 Amazon 密钥存储连接凭证，而不是直接提供用户名和密码。有关更多信息，请参阅在 Amazon Secrets Manager 中存储连接凭证。

提供有权访问 JDBC 数据存储的用户名。

密码

输入具有 MongoDB 或 MongoDB Atlas 数据存储访问权限的用户名的密码。

Amazon Glue SSL 连接属性

下面是有关 Require SSL connection（需要 SSL 连接）属性的详细信息。

如果不需要 SSL 连接，则 Amazon Glue 在使用 SSL 加密与数据存储的连接时会忽略失败。有关配置说明，请参阅数据存储的文档。当您选择此选项时，如果 Amazon Glue 无法连接，则开发端点中的作业运行、爬网程序或 ETL 语句将失败。

注意

Snowflake 默认支持 SSL 连接，因此此属性不适用于 Snowflake。

此选项在 Amazon Glue 客户端进行验证。对于 JDBC 连接，Amazon Glue 仅通过 SSL 连接并进行证书和主机名验证。SSL 连接支持适用于：

Oracle 数据库
Microsoft SQL Server
PostgreSQL
Amazon Redshift
MySQL（仅限 Amazon RDS 实例）
Amazon Aurora MySQL（仅限 Amazon RDS 实例）
Amazon Aurora PostgreSQL（仅限 Amazon RDS 实例）
Kafka，其中包括 Amazon Managed Streaming for Apache Kafka
MongoDB

注意

要使 Amazon RDS Oracle 数据存储能够使用 Require SSL connection (需要 SSL 连接)，您必须创建一个选项组并将其附加到 Oracle 实例。

登录 Amazon Web Services 管理控制台，然后通过以下网址打开 Amazon RDS 控制台：https://console.aws.amazon.com/rds/。
将 Option group (选项组) 添加到 Amazon RDS Oracle 实例。有关如何在 Amazon RDS 控制台上添加选项组的更多信息，请参阅创建选项组
将 Option (选项) 添加到 SSL 的选项组。您为 SSL 指定的端口稍后在您为 Amazon RDS Oracle 实例创建 Amazon Glue JDBC 连接 URL 时使用。有关如何在 Amazon RDS 控制台上添加选项的更多信息，请参阅 Amazon RDS 用户指南中的向选项组添加选项。有关 Oracle SSL 选项的更多信息，请参阅 Amazon RDS 用户指南中的 Oracle SSL。
在 Amazon Glue 控制台中，创建到 Amazon RDS Oracle 实例的连接。在连接定义中，选择 Require SSL connection (需要 SSL 连接)。在请求时，输入您在 Amazon RDS Oracle SSL 选项中使用的端口。

当为连接选择了 Require SSL connection (需要 SSL 连接) 时，可使用以下其他可选属性。

S3 中的自定义 JDBC 证书

如果您的证书当前用于与本地或云数据库进行 SSL 通信，则可以将该证书用于与 Amazon Glue 数据源或目标的 SSL 连接。输入包含自定义根证书的 Amazon Simple Storage Service（Amazon S3）位置。Amazon Glue 使用此证书建立与数据库的 SSL 连接。Amazon Glue 仅处理 X.509 证书。该证书必须经过 DER 编码，并以 base64 编码 PEM 格式提供。

如果将此字段留空，则使用默认证书。

自定义 JDBC 证书字符串

输入 JDBC 数据库特定的证书信息。此字符串用于域匹配或可分辨名称 (DN) 匹配。对于 Oracle 数据库，此字符串会映射到 tnsnames.ora 文件中安全性部分中的 SSL_SERVER_CERT_DN 参数。对于 Microsoft SQL Server，此字符串将用作 hostNameInCertificate。

下面是适用于 Oracle 数据库 SSL_SERVER_CERT_DN 参数的示例。


cn=sales,cn=OracleContext,dc=us,dc=example,dc=com

Kafka 私有 CA 证书位置

如果您拥有当前用于与 Kafka 数据存储进行 SSL 通信的证书，则可以在 Amazon Glue 连接中使用该证书。此选项对于 Kafka 数据存储是必需的，对于 Amazon Managed Streaming for Apache Kafka 数据存储是可选的。输入包含自定义根证书的 Amazon Simple Storage Service（Amazon S3）位置。Amazon Glue 使用此证书建立与 Kafka 数据存储的 SSL 连接。Amazon Glue 仅处理 X.509 证书。该证书必须经过 DER 编码，并以 base64 编码 PEM 格式提供。

Skip certificate validation (跳过证书验证)

选中 Skip certificate validation (跳过证书验证) 复选框，可跳过 Amazon Glue 对自定义证书的验证。如果您选择验证，则 Amazon Glue 会验证证书的签名算法和主题公有密钥算法。如果证书验证失败，则使用该连接的任何 ETL 作业或爬网程序都将失败。

唯一允许的签名算法是 SHA256withRSA、SHA384withRSA 或 SHA512withRSA。对于主题公有密钥算法，密钥长度必须至少为 2048 位。

Kafka 客户端密钥库位置

用于 Kafka 客户端身份验证的客户端密钥库文件的 Amazon S3 位置。路径必须采用 s3://bucket/prefix/filename.jks 的形式。它必须以文件名和 .jks 扩展名结尾。

Kafka 客户端密钥库密码（可选）

用于访问提供的密钥库的密码。

Kafka 客户端密钥密码（可选）

密钥库可以由多个密钥组成，因此这是访问要与 Kafka 服务器端密钥一起使用的客户端密钥的密码。

适用于客户端身份验证的 Apache Kafka 连接属性

Amazon Glue 支持简单身份验证和安全层（SASL）框架，用于在创建 Apache Kafka 连接时进行身份验证。SASL 框架支持各种身份验证机制，且 Amazon Glue 提供 SCRAM（用户名和密码）、GSSAPI（Kerberos 协议）和 PLAIN 协议。

使用 Amazon Glue Studio 配置下面的一种客户端身份认证方法。有关更多信息，请参阅《Amazon Glue Studio 用户指南》中的 Creating connections for connectors。

无 – 不进行身份验证。如果是为进行测试而创建连接，这非常有用。
SASL/SCRAM-SHA-512 – 选择此身份验证方法将允许您指定身份验证凭证。有两个可用的选项：
- 使用 Amazon Secrets Manager（推荐）- 如果选择此选项，则可以将用户名和密码存储在 Amazon Secrets Manager 中，然后让 Amazon Glue 在需要时进行访问。指定存储 SSL 或 SASL 身份验证凭证的密钥。有关更多信息，请参阅在 Amazon Secrets Manager 中存储连接凭证。
- 直接提供用户名和密码。
SASL/GSSAPI (Kerberos) – 如果选择此选项，则可以选择 keytab 文件、krb5.conf 文件的位置，然后输入 Kerberos 主体名称和 Kerberos 服务名称。keytab 文件和 krb5.conf 文件的位置必须位于 Amazon S3 位置。由于 MSK 尚不支持 SASL/GSSAPI，所以此选项仅适用于客户管理的 Apache Kafka 集群。有关更多信息，请参阅 MIT Kerberos 文档：keytab。
SASL/PLAIN - 选择此身份验证方法以指定身份验证凭证。有两个可用的选项：
- 使用 Amazon Secrets Manager（推荐）- 如果选择此选项，则可以将凭证存储在 Amazon Secrets Manager 中，然后让 Amazon Glue 在需要时访问该信息。指定存储 SSL 或 SASL 身份验证凭证的密钥。
- 直接提供用户名和密码。
SSL 客户端身份验证：如果选择此选项，则可以通过浏览 Amazon S3 来选择 Kafka 客户端密钥库的位置。或者，您可以输入 Kafka 客户端密钥库密码和 Kafka 客户端密钥密码。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

REST API 连接

在 Amazon Secrets Manager 中存储连接凭证

Amazon Glue 连接属性

主题

必需的连接属性

Amazon DocumentDB 连接

OpenSearch Service 连接

Amazon Redshift 连接

Google BigQuery 连接

MySQL 连接属性

Oracle 连接属性

PostgreSQL 连接属性

SAP HANA 连接

Snowflake 连接

SQL Server 连接属性

Teradata Vantage 连接

Vertica 连接

Azure Cosmos 连接

Azure SQL 连接

Salesforce 连接属性

Amazon Glue JDBC 连接属性

重要

警告

重要

注意

重要

Amazon Glue MongoDB 和 MongoDB Atlas 连接属性

注意

Amazon Glue SSL 连接属性

注意

注意

适用于客户端身份验证的 Apache Kafka 连接属性