管理 Amazon EMR Studio - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

管理 Amazon EMR Studio

本部分描述了监控、更新或删除 Amazon EMR Studio 资源的说明。有关分配用户或更新用户权限的信息,请参阅 分配和管理 EMR Studio 用户

查看 Studio 详细信息

Console

使用控制台查看有关 EMR Studio 的详细信息

  1. 通过以下链接登录Amazon Web Services Management Console并打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 从左侧导航中选择 EMR Studio

  3. Studios 列表中选择 Studio 以打开 Studio 详细信息页面。Studio 详细信息页面包括 Studio setting (Studio 设置) 信息,例如 Studio Description (描述)VPCSubnets (子网)

CLI

使用 Amazon CLI 按 Studio ID 检索 EMR Studio 的详细信息

使用以下 describe-studio Amazon CLI 命令获取有关特定 EMR Studio 的详细信息。有关更多信息,请参阅Amazon CLI命令参考

aws emr describe-studio \ --studio-id <id-of-studio-to-describe> \

使用Amazon CLI检索 EMR Studio 列表

使用以下 list-studios Amazon CLI 命令。有关更多信息,请参阅Amazon CLI命令参考

aws emr list-studios

以下是 list-studios 命令的示例返回值(JSON 格式)。

{ "Studios": [ { "AuthMode": "IAM", "VpcId": "vpc-b21XXXXX", "Name": "example-studio-name", "Url": "https://es-7HWP74SNGDXXXXXXXXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com", "CreationTime": 1605672582.781, "StudioId": "es-7HWP74SNGDXXXXXXXXXXXXXXX", "Description": "example studio description" } ] }

监控 Amazon EMR Studio 操作

查看 Amazon EMR Studio 和 API 活动

Amazon EMR Studio 与 Amazon CloudTrail 集成,该服务提供 IAM 用户、IAM 角色或 Amazon EMR Studio 中的其他 Amazon 服务所采取的操作的记录。CloudTrail 将 EMR Studio 的 API 调用作为事件捕获。您可以使用 CloudTrail 控制台 (https://console.aws.amazon.com/cloudtrail/) 查看这些事件。

EMR Studio 事件提供诸如哪个 Studio 或 IAM 用户发出请求以及请求的类型等信息。

注意

集群上的操作,例如:运行笔记本任务,不会发出 Amazon CloudTrail。

您还可以创建跟踪,以将 EMR Studio CloudTrail 事件持续传送到 Amazon S3 存储桶。有关更多信息,请参阅《Amazon CloudTrail 用户指南》

CloudTrail 事件示例:IAM 用户调用 DescribeStudio API

以下是在 IAM 用户 admin 调用 DescribeStudio API 时创建的示例 Amazon CloudTrail 事件。CloudTrail 将用户名记录为 admin

注意

DescribeStudio 的 EMR Studio API 事件排除responseElements的值来保护 Studio 详细信息。

{ "eventVersion":"1.08", "userIdentity":{ "type":"IAMUser", "principalId":"AIDXXXXXXXXXXXXXXXXXX", "arn":"arn:aws:iam::653XXXXXXXXX:user/admin", "accountId":"653XXXXXXXXX", "accessKeyId":"AKIAIOSFODNN7EXAMPLE", "userName":"admin" }, "eventTime":"2021-01-07T19:13:58Z", "eventSource":"elasticmapreduce.amazonaws.com", "eventName":"DescribeStudio", "awsRegion":"us-east-1", "sourceIPAddress":"72.XX.XXX.XX", "userAgent":"aws-cli/1.18.188 Python/3.8.5 Darwin/18.7.0 botocore/1.19.28", "requestParameters":{ "studioId":"es-9O5XXXXXXXXXXXXXXXXXXXXXX" }, "responseElements":null, "requestID":"0fxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx", "eventID":"b0xxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx", "readOnly":true, "eventType":"AwsApiCall", "managementEvent":true, "eventCategory":"Management", "recipientAccountId":"653XXXXXXXXX" }

查看 Spark 用户和任务活动

要查看 Amazon EMR Studio 用户的 Spark 任务活动,您可以在集群上配置用户模拟。借助用户模拟,从 Workspace 提交的每个 Spark 任务都与运行代码的 Studio 用户相关联。

启用用户模拟后,Amazon EMR 会在集群的主节点 (master node) 上为在 Workspace 中运行代码的每个用户创建一个 HDFS 用户目录。例如,如果用户 studio-user-1@example.com 运行代码,您可以连接主节点 (master node) 并可以看到 hadoop fs -ls /user 显示 studio-user-1@example.com 的目录。

要设置 Spark 用户模拟,请在以下配置分类中设置以下属性:

  • core-site

  • livy-conf

[ { "Classification": "core-site", "Properties": { "hadoop.proxyuser.livy.groups": "*", "hadoop.proxyuser.livy.hosts": "*" } }, { "Classification": "livy-conf", "Properties": { "livy.impersonation.enabled": "true" } } ]

要查看历史服务器页面,请参阅 使用 EMR Studio 调试应用程序和任务。您还可以使用 SSH 连接到集群的主节点 (master node) 以查看应用程序的 Web 界面。有关更多信息,请参阅 查看 Amazon EMR 集群上托管的 Web 界面

更新 Amazon EMR Studio

创建 EMR Studio 后,您可以使用 Amazon CLI 更新以下属性:

  • 名称

  • 描述

  • 默认 S3 位置

  • 子网

使用Amazon CLI更新 EMR Studio

使用 update-studio Amazon CLI 命令更新 Amazon EMR Studio。有关更多信息,请参阅Amazon CLI命令参考

注意

您可以将 Studio 与最多 5 个子网关联。这些子网必须与 Studio 属于同一 VPC。您提交给 update-studio 命令的子网 ID 列表可以包括新的子网 ID,但还必须包括您之前与 Studio 关联的所有子网 ID。您无法从 Studio 中删除子网。

aws emr update-studio \ --studio-id <example-studio-id-to-update> \ --name <example-new-studio-name> \ --subnet-ids <old-subnet-id-1 old-subnet-id-2 old-subnet-id-3 new-subnet-id> \

要验证更改,请使用 describe-studio Amazon CLI 命令并指定您的 Studio ID。有关更多信息,请参阅Amazon CLI命令参考

aws emr describe-studio \ --studio-id <id-of-updated-studio> \

删除 Amazon EMR Studio 和 Workspaces

当您删除 Studio 时,EMR Studio 会删除与 Studio 关联的所有 Amazon Web Services SSO 用户和组分配。

注意

当您删除 Studio 时,Amazon EMR 不会删除与其关联的 Workspaces。您必须单独删除 Studio 中的 Workspaces。

删除 Workspaces

Console

由于每个 EMR Studio Workspace 都是 EMR Notebooks 实例,因此您可以使用 Amazon EMR 管理控制台删除 Workspaces。您可以在删除 Studio 前后使用 Amazon EMR 控制台删除 Workspaces

使用 Amazon EMR 控制台删除 Workspaces

  1. 通过以下链接登录Amazon Web Services Management Console并打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 选择 Notebooks (笔记本)

  3. 选择要删除的一个或多个 Workspace。

  4. 选择 Delete (删除),然后再一次选择 Delete (删除) 已确认删除。

  5. 按照《Amazon Simple Storage Service 控制台用户指南》中的删除对象说明,从 Amazon S3 中删除与已删除 Workspace 关联的笔记本文件。

EMR Studio UI

从 EMR Studio 中删除 Workspace 及其关联的备份文件

  1. 使用您的 Studio 访问 URL 登录 EMR Studio,然后从左侧导航中选择 Workspaces

  2. 在列表中找到您的 Workspace,然后选中其名称旁边的复选框。您可以选择同时删除多个 Workspaces。

  3. 选择 Workspaces 列表右上角的 Delete (删除) 并确认您要删除选定的 Workspaces。选择 Delete (删除) 以确认。

  4. 按照《Amazon Simple Storage Service 控制台用户指南》中的删除对象说明,从 Amazon S3 中删除与已删除 Workspace 关联的笔记本文件。如果您没有创建 Studio,请咨询您的 Studio 管理员以确定已删除 Workspace 的 Amazon S3 备份位置。

删除 EMR Studio

Console

使用控制台删除 EMR Studio

  1. 通过以下链接登录Amazon Web Services Management Console并打开 Amazon EMR 控制台:https://console.aws.amazon.com/elasticmapreduce/

  2. 从左侧导航中选择 EMR Studio

  3. Studios 列表中选择 Studio,然后选择 Delete (删除)

CLI

使用Amazon CLI删除 EMR Studio

使用 delete-studio Amazon CLI 命令删除 Amazon EMR Studio。有关更多信息,请参阅Amazon CLI命令参考

aws emr delete-studio --studio-id <id-of-studio-to-delete>