什么是 Amazon Glue DataBrew? - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Glue DataBrew?

Amazon Glue DataBrew 是一种可视化数据准备工具,让用户无需编写任何代码即可清理数据并实现标准化。与定制开发的数据准备相比,使用 DataBrew 可将准备用于分析和机器学习 (ML) 的数据所需的时间缩短多达 80%。您可以从 250 多种现成的转换功能中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。

通过使用 DataBrew,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。由于 DataBrew 是无服务器的,因此无论您的技术水平如何,您都可以浏览和转换数 TB 的原始数据,而无需创建集群或管理任何基础架构。

借助直观的 DataBrew 界面,您可以交互式地发现、可视化、清理和转换原始数据。 DataBrew 提出明智的建议,帮助您识别可能难以发现且修复耗时的数据质量问题。 DataBrew 准备数据后,您可以利用自己的时间对结果采取行动,并更快地进行迭代。您可以将转换保存为配方中的步骤,以后可以对其进行更新或在其他数据集中重复使用,并持续部署。

下图显示了高级 DataBrew 工作原理。

关于 DataBrew 工作原理的简单示意图。 DataBrew 无需编写代码即可直观地清理、准备和转换数据。一个方框显示 DataBrew 从 Amazon S3 输入的数据。它显示了一些 DataBrew 可以做到的变换的方框。转换框包括以下内容:格式化、清理和标准化数据。重构和转换数据。处理缺失和无效的数据。处理分类变量。处理数值变量。使用自然语言处理。该图显示数据作为准备好的数据集导出到 S3。

要使用 DataBrew,您需要创建一个项目并连接到您的数据。在项目工作区中,您可以看到您的数据显示在类似网格的可视界面中。在这里,您可以浏览数据并查看价值分布和图表,以了解其概况。

要准备数据,您可以从 250 多种 point-and-click 转换中进行选择。其中包括删除空值、替换缺失值、修复架构不一致、基于函数创建列等等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子拆分为短语。即时预览会显示转换前后的部分数据,因此您可以在将配方应用于整个数据集之前对其进行修改。

DataBrew 在数据集上运行配方后,输出内容将存储在 Amazon Simple Storage Service (Amazon Simple S3) 中。将经过清理、准备好的数据集存入 Amazon S3 后,您的其他数据存储或数据管理系统可以将其摄取。