本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Spark 连接器时的注意事项和限制
-
我们建议你开启从亚马逊上SSL的 Spark EMR 到亚马逊 Redshift 的JDBC连接。
-
作为最佳实践,建议您在 Amazon Secrets Manager 中管理 Amazon Redshift 集群的凭证。有关示例 Amazon Secrets Manager ,请参阅使用检索连接至亚马逊 Redshift 的凭证。
-
我们建议您传递一个带有 Amazon Redshift 身份验证参数参数参数
aws_iam_role
的IAM角色。 -
它们
tempdir
URI指向 Amazon S3 的一个地点。此临时目录不会自动清理,因此可能会增加额外成本。 -
请考虑以下针对 Amazon Redshift 的建议:
-
建议阻止对 Amazon Redshift 集群的公有访问。
-
建议启用 Amazon Redshift 审计日志记录。
-
建议启用 Amazon Redshift 静态加密。
-
-
请考虑以下针对 Amazon S3 的建议:
-
建议使用 Amazon S3 服务器端加密以加密使用的 Amazon S3 存储桶。
-
建议使用 Amazon S3 生命周期策略定义 Amazon S3 存储桶的保留规则。
-
Amazon EMR 始终会验证从开源代码导入镜像的代码。出于安全原因,我们不支持从 Spark 到 Amazon S3 的以下身份验证方法:
-
在
hadoop-env
配置分类中设置 Amazon 访问密钥 -
在中 Amazon 对访问密钥进行编码
tempdir
URI
-
有关使用连接器及其支持参数的更多信息,请参阅以下资源:
-
Amazon Redshift Management Guide(《Amazon Redshift 管理指南》)中的 Amazon Redshift integration for Apache Spark(适用于 Apache Spark 的 Amazon Redshift 集成)
-
Github 上的
spark-redshift
社区存储库