什么是 Amazon Glue DataBrew? - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Glue DataBrew?

Amazon Glue DataBrew 是一种可视化数据准备工具,使用户无需编写任何代码即可清理和标准化数据。与定制开发的数据准备相比,使用 DataBrew 可将准备用于分析和机器学习 (ML) 的数据所需的时间缩短多达 80%。您可以从 250 多种现成的转换中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。

通过使用 DataBrew,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。由于 DataBrew 是无服务器的,因此无论您的技术水平如何,您都可以浏览和转换数 TB 的原始数据,而无需创建集群或管理任何基础架构。

借助直观的 DataBrew 界面,您可以交互式地发现、可视化、清理和转换原始数据。 DataBrew 提出明智的建议,帮助您识别可能难以发现且修复耗时的数据质量问题。 DataBrew 准备数据后,您可以利用自己的时间对结果采取行动,并更快地进行迭代。您可以将转换保存为配方中的步骤,以后可以对其进行更新或在其他数据集中重复使用,并持续部署。

下图显示了高层次 DataBrew 的工作原理。

关于 DataBrew 工作原理的简单示意图。 DataBrew 无需编写代码即可直观地清理、准备和转换数据。一个方框显示了 DataBrew 从 Amazon S3 输入的数据。它显示了一些 DataBrew 可以做到的变换的方框。转换框包括以下内容:格式化、清理和标准化数据。重构和转换数据。处理缺失和无效的数据。处理类别变量。处理数值变量。使用自然语言处理。该图显示数据作为准备好的数据集导出到 S3。

要使用 DataBrew,您需要创建一个项目并连接到您的数据。在项目工作区中,您可以看到您的数据显示在类似网格的可视界面中。在这里,您可以浏览数据并查看价值分布和图表,以了解其概况。

要准备数据,您可以从 250 多种 point-and-click转换中进行选择。其中包括删除空值、替换缺失值、修复架构不一致、基于函数创建列等等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子拆分为短语。即时预览会显示转换前后的部分数据,因此您可以在将配方应用于整个数据集之前对其进行修改。

DataBrew 在数据集上运行配方后,输出将存储在亚马逊简单存储服务 (Amazon S3) Service 中。将经过清理、准备好的数据集存入 Amazon S3 后,您的其他数据存储或数据管理系统可以将其摄取。