Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
创建 EMR Studio
您可以使用 Amazon EMR 控制台或 Amazon CLI 为您的团队创建 EMR Studio。创建 Studio 实例是设置 Amazon EMR Studio 的一部分。
先决条件
在创建 Studio 之前,请确保您已在 设置 EMR Studio 中完成了之前的任务。
要使用 Amazon CLI 创建 Studio,您应该已经安装了最新版本。有关更多信息,请参阅安装或更新 Amazon CLI 的最新版本。
在创建 Studio 之前,请确保在浏览器中停用 FoxyProxy 或 SwitchyOmega 等代理管理工具。当您选择 Create Studio(创建 Studio)时,活动代理可能会导致出现 Network Failure(网络故障)错误消息。
Amazon EMR 为您提供了创建 Studio 的简单控制台体验,让您可以快速开始使用默认设置来运行交互式工作负载,或使用默认设置来运行批处理作业。创建 EMR Studio 还会创建一个 EMR Serverless 应用程序,为您的交互式作业做好准备。
如果您想完全控制 Studio 的设置,可选择自定义,这样就可以配置所有其他设置。
- Interactive workloads
-
创建 EMR Studio 运行交互式工作负载
-
通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/emr。
-
在左侧导航栏的 EMR Studio 下,选择 Getting started(入门)。您还可以从 Studios 页面创建新 Studios。
-
如果要创建 EMR Studio 运行交互式工作负载,Amazon EMR 会为您提供默认设置,但您可以编辑这些设置。可配置的设置包括 EMR Studio 的名称、工作区的 S3 位置、要使用的服务角色、要使用的工作区、EMR Serverless 应用程序名称以及相关的运行时角色。
-
选择创建 Studio 并启动工作区,完成并导航到 Studios 页面。您的新 Studio 在列表中,其中包含 Studio name (Studio 名称)、Creation date (日期创建) 和 Studio access URL (Studio 访问 URL) 等详细信息。工作区将在浏览器的新选项卡中打开。
- Batch jobs
-
创建 EMR Studio 运行交互式工作负载
-
通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/emr。
-
在左侧导航栏的 EMR Studio 下,选择 Getting started(入门)。您还可以从 Studios 页面创建新 Studios。
-
如果要为批处理作业创建 EMR Studio,Amazon EMR 会为您提供默认设置,但您可以编辑这些设置。可配置的设置包括 EMR Studio 的名称、EMR Serverless 应用程序名称和相关的运行时角色。
-
选择创建 Studio 并启动工作区,完成并导航到 Studios 页面。您的新 Studio 在列表中,其中包含 Studio name (Studio 名称)、Creation date (日期创建) 和 Studio access URL (Studio 访问 URL) 等详细信息。EMR Studio 将在浏览器的新选项卡中打开。
- Custom settings
-
使用自定义设置创建 EMR Studio
-
通过以下链接打开 Amazon EMR 控制台:https://console.aws.amazon.com/emr。
-
在左侧导航栏的 EMR Studio 下,选择 Getting started(入门)。您还可以从 Studios 页面创建新 Studios。
-
选择创建 Studio,打开创建 Studio 页面。
-
输入 Studio 名称。
-
选择创建新的 S3 存储桶或使用现有位置。
-
选择要添加到 Studio 的工作区。您最多可以添加 3 个工作区。
-
在身份验证中,为 Studio 选择身份验证模式并根据下表提供信息。要了解有关 EMR Studio 身份验证的更多信息,请参阅 为 Amazon EMR Studio 选择身份验证模式。
-
对于 VPC,从下拉列表中为 Studio 选择 Amazon Virtual Private Cloud(VPC)。
-
在 Subnets (子网) 下,在您的 VPC 中选择最多五个子网以与 Studio 关联。创建 Studio 后,您可以选择添加更多子网。
-
对于 Security groups (安全组),选择默认安全组或自定义安全组。有关更多信息,请参阅 定义安全组以控制 EMR Studio 网络流量。
如果选择... |
请执行此操作... |
默认 EMR Studio 安全组 |
要为 Studio 启用基于 Git 的存储库链接,请选择 Enable clusters/endpoints and Git repository (启用集群/终端节点和 Git 存储库)。否则,请选择 Enable clusters/endpoints (启用集群/终端节点)。
|
您 Studio 的自定义安全组 |
-
在 Cluster/endpoint security group (集群/端点安全组) 下,从下拉列表中选择您配置的引擎安全组。您的 Studio 使用此安全组来允许来自附加 Workspaces 的入站访问。
-
在 Workspace security group (Workspace 安全组) 下,从下拉列表中选择您配置的 Workspace 安全组。您的 Studio 使用此安全组和 Workspaces 来提供对附加 Amazon EMR 集群和公共托管 Git 存储库的出站访问。
|
-
向 Studio 和其他资源添加标签。有关标签的更多信息,请参阅标签集群。
-
选择创建 Studio 并启动工作区,完成并导航到 Studios 页面。您的新 Studio 在列表中,其中包含 Studio name (Studio 名称)、Creation date (日期创建) 和 Studio access URL (Studio 访问 URL) 等详细信息。
创建 Studio 后,请按照将用户或组分配到 EMR Studio中的说明进行操作。
- CLI
为了便于读取,包含 Linux 行继续符 (\)。它们可以通过 Linux 命令删除或使用。对于 Windows,请将它们删除或替换为脱字号 (^)。
例 – 创建使用 IAM 进行身份验证的 EMR Studio
下面的示例 Amazon CLI 命令将创建使用 IAM 身份验证模式的 EMR Studio。当您为 Studio 使用 IAM 身份验证或联合身份验证时,您不需要指定 --user-role
。
要允许联合身份用户使用 Studio URL 和身份提供商 (IdP) 的凭据登录,请指定您的 --idp-auth-url
和 --idp-relay-state-parameter-name
。有关 IdP 身份验证 URL 和 RelayState 名称的列表,请参阅 身份提供商 RelayState 参数和身份验证 URL。
aws emr create-studio \
--name <example-studio-name>
\
--auth-mode IAM \
--vpc-id <example-vpc-id>
\
--subnet-ids <subnet-id-1> <subnet-id-2>... <subnet-id-5>
\
--service-role <example-studio-service-role-name>
\
--user-role studio-user-role-name
\
--workspace-security-group-id <example-workspace-sg-id>
\
--engine-security-group-id <example-engine-sg-id>
\
--default-s3-location <example-s3-location>
\
--idp-auth-url <https://EXAMPLE/login/>
\
--idp-relay-state-parameter-name <example-RelayState>
例 – 创建使用 Identity Center 进行身份验证的 EMR Studio
以下 Amazon CLI 示例命令创建使用 IAM Identity Center 身份验证模式的 EMR Studio。当您使用 IAM Identity Center 身份验证时,则必须指定 --user-role
。
有关 IAM Identity Center 身份验证的更多信息,请参阅 为 Amazon EMR Studio 设置 IAM Identity Center 身份验证模式。
aws emr create-studio \
--name <example-studio-name>
\
--auth-mode SSO \
--vpc-id <example-vpc-id>
\
--subnet-ids <subnet-id-1> <subnet-id-2>... <subnet-id-5>
\
--service-role <example-studio-service-role-name>
\
--user-role <example-studio-user-role-name>
\
--workspace-security-group-id <example-workspace-sg-id>
\
--engine-security-group-id <example-engine-sg-id>
\
--default-s3-location <example-s3-location>
--trusted-identity-propagation-enabled \
--idc-user-assignment OPTIONAL \
--idc-instance-arn <iam-identity-center-instance-arn>
例 – aws emr create-studio
的 CLI 输出
以下是您创建 Studio 之后出现的输出示例。
{
StudioId: "es-123XXXXXXXXX",
Url: "https://es-123XXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com"
}
有关 create-studio
命令的更多信息,请参阅 Amazon CLI 命令参考。
身份提供商 RelayState 参数和身份验证 URL
当您使用 IAM 联合身份验证,并且希望用户使用您的 Studio URL 和身份提供商 (IdP) 的凭证登录时,您可以指定身份提供商 (IdP) 登录 URL 和当您创建 EMR Studio时的 RelayState 参数名称。
下表列出了一些常用身份提供商的标准身份验证 URL 和 RelayState 参数名称。
身份提供商 |
参数 |
身份验证 URL |
Auth0 |
RelayState |
https://<sub_domain> .auth0.com/samlp/<app_id> |
Google 账户 |
RelayState |
https://accounts.google.com/o/saml2/initsso?idpid=<idp_id> &spid=<sp_id> &forceauthn=false |
Microsoft Azure |
RelayState |
https://myapps.microsoft.com/signin/<app_name> /<app_id> ?tenantId=<tenant_id> |
Okta |
RelayState |
https://<sub_domain> .okta.com/app/<app_name> /<app_id> /sso/saml |
PingFederate |
TargetResource |
https://<host> /idp/<idp_id> /startSSO.ping?PartnerSpId=<sp_id> |
PingOne |
TargetResource |
https://sso.connect.pingidentity.com/sso/sp/initsso?saasid=<app_id> &idpid=<idp_id> |