View a markdown version of this page

连接 Ray 作业中的数据 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

连接 Ray 作业中的数据

重要

Amazon Glue for Ray 不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息,请参阅 Amazon Glue for Ray 终止支持

Amazon Glue Ray 作业可以使用各种 Python 包,这些包专为快速集成数据而设计。我们提供了一组最少的依赖关系,以免您的环境混乱。有关默认情况下包含内容的更多信息,请参阅 Ray 作业提供的模块

注意

Amazon Glue 提取、转换、加载(ETL)提供 DynamicFrame 抽象化来简化 ETL 工作流程,在这些工作流程中,您可以解决数据集各行之间的架构差异。Amazon GlueETL 还提供其他功能,例如作业书签和分组输入文件。我们目前不在 Ray 作业中提供相应的功能。

Amazon Glue for Spark 直接支持连接到某些数据格式、源和接收器。在 Ray 中,适用于 Pandas 的 Amazon 开发工具包和最新的第三方库在很大程度上满足了这一需求。您需要查阅这些库,以了解有哪些功能可用。

Amazon Glue for Ray 目前无法与 Amazon VPC 集成。如果没有公共路由,就无法访问 Amazon VPC 中的资源。有关将 Amazon Glue 与 Amazon VPC 结合使用的更多信息,请参阅 为 Amazon Glue(Amazon PrivateLink)配置接口 VPC 端点(Amazon PrivateLink)

在 Ray 中处理数据的常用库

Ray Data – Ray Data 提供了处理常见数据格式、源和接收器的方法。有关 Ray Data 中支持的格式和源的更多信息,请参阅 Ray Data 文档中的 Input/Output。Ray Data 是一个坚持己见的库,而不是一个用于处理数据集的通用库。

Ray 围绕 Ray Data 可能是您工作的最佳解决方案的用例提供了某些指导。有关更多信息,请参阅 Ray 文档中的 Ray use cases

适用于 Pandas 的 Amazon 开发工具包(awswrangler) – 适用于 Pandas 的 Amazon 开发工具包是一款 Amazon 产品,当您使用 pandas DataFrames 进行转换管理数据时,该产品提供经过测试的简洁解决方案,用于读取和写入 Amazon 服务。有关适用于 Pandas 的 Amazon 开发工具包中支持的格式和来源的更多信息,请参阅Amazon适用于 Pandas 的开发工具包文档中的 API Reference

有关如何使用适用于 Pandas 的 Amazon 开发工具包读取和写入数据的示例,请参阅适用于 Pandas 的 Amazon 开发工具包文档中的 Quick Start。适用于 Pandas 的 Amazon 开发工具包不为您的数据提供转换。它仅支持从源读取和写入。

Modin – Modin 是一个 Python 库,它以可分发的方式实现了常见的 Pandas 操作。有关 Modin 的更多信息,请参阅 Modin 文档。Modin 本身不提供从源读取和写入的支持。它提供常见转换的分布式实现。适用于 Pandas 的 Amazon 开发工具包支持 Modin。

当您在 Ray 环境中同时运行 Modin 和适用于 Pandas 的 Amazon 开发工具包时,您可以执行常见的 ETL 任务并获得高性能结果。有关将 Modin 与适用于 Pandas 的 Amazon 开发工具包一起使用的更多信息,请参阅适用于 Pandas 的 Amazon 开发工具包文档中的 At scale

其他框架 - 有关 Ray 支持的框架的更多信息,请参阅 Ray 文档中的 The Ray Ecosystem。我们不为 Amazon Glue for Ray 中的其他框架提供支持。

通过 Data Catalog 连接

适用于 Pandas 的 Amazon 开发工具包支持通过 Data Catalog 与 Ray 作业一起管理数据。有关更多信息,请参阅适用于 Pandas 的 Amazon 开发工具包网站上的 Glue 目录