在 EMR Studio Workspace 中安装内核和库 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

在 EMR Studio Workspace 中安装内核和库

每个 Amazon EMR Studio Workspace 均附带一组预安装的库和内核。当您使用在 Amazon EC2 上运行的 EMR 集群时,您还可以通过以下方式为 EMR Studio 自定义环境:

  • 在集群主节点 (master node) 上安装 Jupyter 笔记本内核和 Python 库 – 使用此选项安装库时,库由附加到同一集群的所有 Workspaces 共享。您可以从笔记本单元中安装内核或库,也可以在使用 SSH 连接到集群的主节点 (master node) 时安装内核或库。

  • 使用笔记本范围内的库 — 当 Workspace 用户从笔记本电脑单元中安装和使用库时,这些库仅适用于该笔记本电脑。此选项允许同一集群的不同笔记本工作,而不必担心库版本冲突。

EMR Studio Workspaces 与 EMR Notebooks 具有相同的底层架构。您可以使用 EMR Studio 安装和使用 Jupyter 笔记本内核和 Python 库,就像使用 EMR Notebooks 一样。有关说明,请参阅 安装并使用内核和库

Amazon EMR on EKS 集群上的内核和库

Amazon EMR on EKS 集群包括 PySpark 和 Python 3.7 内核以及一组预安装的库。Amazon EMR on EKS 不支持安装其他的库或集群。

每个 Amazon EMR on EKS 集群都安装了以下 Python 和 PySpark 库:

  • Python – boto3、cffi、future、ggplot、jupyter、kubernetes、matplotlib、numpy、pandas、plotly、pycryptodomex、py4j、requests、scikit-learn、scipy、seaborn

  • PySpark – ggplot、jupyter、matplotlib、numpy、pandas、plotly、pycryptodomex、py4j、requests、scikit-learn、scipy、seaborn