在 EMR Studio Workspace 中安装内核和库 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 EMR Studio Workspace 中安装内核和库

每个 Amazon EMR Studio Workspace 均附带一组预安装的库和内核。

在 Amazon EC2 上运行的集群的内核和库

当您使用在 Amazon EC2 上运行的 EMR 集群时,您还可以通过以下方式为 EMR Studio 自定义环境:

  • 在集群主节点上安装 Jupyter notebook 内核和 Python 库 – 使用此选项安装库时,库由附加到同一集群的所有 Workspace 共享。您可以从笔记本单元格中安装内核或库,也可以在使用 SSH 连接到集群的主节点时安装内核或库。

  • 使用笔记本范围内的库 — 当 Workspace 用户从笔记本电脑单元中安装和使用库时,这些库仅适用于该笔记本电脑。此选项允许同一集群的不同笔记本工作,而不必担心库版本冲突。

EMR Studio Workspaces 与 EMR Notebooks 具有相同的底层架构。您可以使用 EMR Studio 安装和使用 Jupyter notebook 内核和 Python 库,就像使用 EMR Notebooks 一样。有关说明,请参阅 安装并使用内核和库

Amazon EMR on EKS 集群上的内核和库

EKS 集群上的 Amaz PySpark on EMR 包括和带有一组预安装库的 Python 3.7 内核。Amazon EMR on EKS 不支持安装其他的库或集群。

EKS 集群上的每个 Amazon EMR 都安装了以下 Python 和 PySpark 库:

  • Python – boto3, cffi, future, ggplot, jupyter, kubernetes, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

  • PySpark – ggplot, jupyter, matplotlib, numpy, pandas, plotly, pycryptodomex, py4j, requests, scikit-learn, scipy, seaborn

EMR Serverless 应用程序的内核和库

每个 EMR 无服务器应用程序都安装了以下 Python 和 PySpark 库:

  • Python – ggplot, matplotlib, numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn

  • PySpark – ggplot, matplotlib,numpy, pandas, plotly, bokeh, scikit-learn, scipy, seaborn