连接 Ray 作业中的数据

重要

Amazon Glue for Ray 不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 Amazon Glue for Ray 终止支持。

Amazon Glue Ray 作业可以使用各种 Python 包，这些包专为快速集成数据而设计。我们提供了一组最少的依赖关系，以免您的环境混乱。有关默认情况下包含内容的更多信息，请参阅 Ray 作业提供的模块。

注意

Amazon Glue 提取、转换、加载（ETL）提供 DynamicFrame 抽象化来简化 ETL 工作流程，在这些工作流程中，您可以解决数据集各行之间的架构差异。Amazon GlueETL 还提供其他功能，例如作业书签和分组输入文件。我们目前不在 Ray 作业中提供相应的功能。

Amazon Glue for Spark 直接支持连接到某些数据格式、源和接收器。在 Ray 中，适用于 Pandas 的 Amazon 开发工具包和最新的第三方库在很大程度上满足了这一需求。您需要查阅这些库，以了解有哪些功能可用。

Amazon Glue for Ray 目前无法与 Amazon VPC 集成。如果没有公共路由，就无法访问 Amazon VPC 中的资源。有关将 Amazon Glue 与 Amazon VPC 结合使用的更多信息，请参阅为 Amazon Glue（Amazon PrivateLink）配置接口 VPC 端点（Amazon PrivateLink）。

在 Ray 中处理数据的常用库

Ray Data – Ray Data 提供了处理常见数据格式、源和接收器的方法。有关 Ray Data 中支持的格式和源的更多信息，请参阅 Ray Data 文档中的 Input/Output。Ray Data 是一个坚持己见的库，而不是一个用于处理数据集的通用库。

Ray 围绕 Ray Data 可能是您工作的最佳解决方案的用例提供了某些指导。有关更多信息，请参阅 Ray 文档中的 Ray use cases。

适用于 Pandas 的 Amazon 开发工具包（awswrangler） – 适用于 Pandas 的 Amazon 开发工具包是一款 Amazon 产品，当您使用 pandas DataFrames 进行转换管理数据时，该产品提供经过测试的简洁解决方案，用于读取和写入 Amazon 服务。有关适用于 Pandas 的 Amazon 开发工具包中支持的格式和来源的更多信息，请参阅Amazon适用于 Pandas 的开发工具包文档中的 API Reference。

有关如何使用适用于 Pandas 的 Amazon 开发工具包读取和写入数据的示例，请参阅适用于 Pandas 的 Amazon 开发工具包文档中的 Quick Start。适用于 Pandas 的 Amazon 开发工具包不为您的数据提供转换。它仅支持从源读取和写入。

Modin – Modin 是一个 Python 库，它以可分发的方式实现了常见的 Pandas 操作。有关 Modin 的更多信息，请参阅 Modin 文档。Modin 本身不提供从源读取和写入的支持。它提供常见转换的分布式实现。适用于 Pandas 的 Amazon 开发工具包支持 Modin。

当您在 Ray 环境中同时运行 Modin 和适用于 Pandas 的 Amazon 开发工具包时，您可以执行常见的 ETL 任务并获得高性能结果。有关将 Modin 与适用于 Pandas 的 Amazon 开发工具包一起使用的更多信息，请参阅适用于 Pandas 的 Amazon 开发工具包文档中的 At scale。

其他框架 - 有关 Ray 支持的框架的更多信息，请参阅 Ray 文档中的 The Ray Ecosystem。我们不为 Amazon Glue for Ray 中的其他框架提供支持。

通过 Data Catalog 连接

适用于 Pandas 的 Amazon 开发工具包支持通过 Data Catalog 与 Ray 作业一起管理数据。有关更多信息，请参阅适用于 Pandas 的 Amazon 开发工具包网站上的 Glue 目录。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

提供文件和 Python 库

使用 Amazon SDK