管理 Amazon EMR Studio
本部分描述了监控、更新或删除 EMR Studio 资源的说明。有关分配用户或更新用户权限的信息,请参阅 分配和管理 EMR Studio 用户。
查看 Studio 详细信息
监控 Amazon EMR Studio 操作
查看 EMR Studio 和 API 活动
EMR Studio 与 Amazon CloudTrail 集成,该服务提供用户、IAM 角色或 EMR Studio 中其他Amazon 服务所采取的操作的记录。CloudTrail 将 EMR Studio 的 API 调用作为事件捕获。您可以使用 CloudTrail 控制台 (https://console.aws.amazon.com/cloudtrail/
EMR Studio 事件提供诸如哪个 Studio 或 IAM 用户发出请求以及请求的类型等信息。
注意
集群上的操作,例如:运行笔记本任务,不会发出 Amazon CloudTrail。
您还可以创建跟踪,以将 EMR Studio CloudTrail 事件持续传送到 Amazon S3 存储桶。有关更多信息,请参阅《Amazon CloudTrail 用户指南》。
CloudTrail 事件示例:用户调用 DescribeStudio API
以下是在用户 admin
调用 DescribeStudio API 时创建的示例 Amazon CloudTrail 事件。CloudTrail 将用户名记录为 admin
。
注意
DescribeStudio 的 EMR Studio API 事件排除responseElements
的值来保护 Studio 详细信息。
{
"eventVersion":"1.08",
"userIdentity":{
"type":"IAMUser",
"principalId":"AIDXXXXXXXXXXXXXXXXXX",
"arn":"arn:aws:iam::653XXXXXXXXX:user/admin
",
"accountId":"653XXXXXXXXX",
"accessKeyId":"AKIAIOSFODNN7EXAMPLE",
"userName":"admin
"
},
"eventTime":"2021-01-07T19:13:58Z",
"eventSource":"elasticmapreduce.amazonaws.com",
"eventName":"DescribeStudio",
"awsRegion":"us-east-1",
"sourceIPAddress":"72.XX.XXX.XX",
"userAgent":"aws-cli/1.18.188 Python/3.8.5 Darwin/18.7.0 botocore/1.19.28",
"requestParameters":{
"studioId":"es-9O5XXXXXXXXXXXXXXXXXXXXXX"
},
"responseElements":null,
"requestID":"0fxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
"eventID":"b0xxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
"readOnly":true,
"eventType":"AwsApiCall",
"managementEvent":true,
"eventCategory":"Management",
"recipientAccountId":"653XXXXXXXXX"
}
查看 Spark 用户和任务活动
要查看 Amazon EMR Studio 用户的 Spark 任务活动,您可以在集群上配置用户模拟。借助用户模拟,从 Workspace 提交的每个 Spark 任务都与运行代码的 Studio 用户相关联。
启用用户模拟后,Amazon EMR 会在集群的主节点上为在 Workspace 中运行代码的每个用户创建一个 HDFS 用户目录。例如,如果用户 studio-user-1@example.com
运行代码,您可以连接主节点并可以看到 hadoop fs -ls /user
显示 studio-user-1@example.com
的目录。
要设置 Spark 用户模拟,请在以下配置分类中设置以下属性:
-
core-site
-
livy-conf
[ { "Classification": "core-site", "Properties": { "hadoop.proxyuser.livy.groups": "*", "hadoop.proxyuser.livy.hosts": "*" } }, { "Classification": "livy-conf", "Properties": { "livy.impersonation.enabled": "true" } } ]
要查看历史服务器页面,请参阅使用 EMR Studio 调试应用程序和任务。您还可以使用 SSH 连接到集群的主节点来查看应用程序的 Web 界面。有关更多信息,请参阅查看 Amazon EMR 集群上托管的 Web 界面。
更新 Amazon EMR Studio
创建 EMR Studio 后,您可以使用 Amazon CLI 更新以下属性:
-
名称
-
描述
-
默认 S3 位置
-
子网
使用Amazon CLI更新 EMR Studio
使用 update-studio
Amazon CLI 命令更新 EMR Studio。有关更多信息,请参阅 Amazon CLI 命令参考。
注意
您可以将 Studio 与最多 5 个子网关联。这些子网必须与 Studio 属于同一 VPC。您提交给 update-studio
命令的子网 ID 列表可以包括新的子网 ID,但还必须包括您之前与 Studio 关联的所有子网 ID。您无法从 Studio 中删除子网。
aws emr update-studio \ --studio-id
<example-studio-id-to-update>
\ --name<example-new-studio-name>
\ --subnet-ids<old-subnet-id-1 old-subnet-id-2 old-subnet-id-3 new-subnet-id>
\
要验证更改,请使用 describe-studio
Amazon CLI 命令并指定您的 Studio ID。有关更多信息,请参阅 Amazon CLI 命令参考。
aws emr describe-studio \ --studio-id
<id-of-updated-studio>
\
删除 Amazon EMR Studio 和 Workspaces
当您删除 Studio 时,EMR Studio 会删除与 Studio 关联的所有 IAM Identity Center 用户和组分配。
注意
当您删除 Studio 时,Amazon EMR 不会删除与其关联的 Workspaces。您必须单独删除 Studio 中的 Workspaces。
删除 Workspaces
删除 EMR Studio