什么是 Amazon Glue DataBrew? - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Glue DataBrew?

Amazon Glue DataBrew是一种可视化数据准备工具,使用户无需编写任何代码即可清理和标准化数据。使用 DataBrew 与自定义开发的数据准备相比,有助于将为分析和机器学习 (ML) 准备数据所需的时间缩短了 80%。您可以从 250 多个现成的转换中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。

使用 DatabReW,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。由于 DataBrew 无服务器,无论您的技术水平如何,您都可以探索和转换 TB 的原始数据,而无需创建群集或管理任何基础架构。

用直观 DataBrew 界面,您可以以交互方式发现、可视化、清理和转换原始数据。 DataBrew 提出明智的建议,以帮助您识别难以找到且耗时修复的数据质量问题。与 DataBrew 准备数据后,您可以利用时间对结果采取行动并更快地迭代。您可以将转换另存为配方中的步骤,以后可以将其与其他数据集一起更新或重复使用,并持续部署。

下图显示了如何 DataBrew 在较高层面上运行。


            关于如何进行简单的图表 DataBrew 作品。 DataBrew 无需编写代码即可直观地清理、准备和转换数据。一个框显示数据输入 DataBrew 来自 Amazon S3。它显示了一些变换的盒子 DataBrew 能做到的。转换框包括以下内容:格式化、清理和标准化数据。重组和转换数据。处理丢失和无效的数据。处理类别变量。处理数字变量。使用自然语言处理。图表显示数据作为准备好的数据集导出到 S3。

要使用 DatabReW,您需要创建一个项目并连接到数据。在项目工作区中,您可以看到数据显示在类似网格的可视化界面中。在这里,您可以浏览数据并查看价值分布和图表以了解其概况。

为了准备数据,您可以选择超过 250 个 point-and-click 转换。其中包括删除空值、替换缺失的值、修复模式不一致、基于函数创建列等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子拆分为短语。即时预览会显示转换之前和之后的一部分数据,因此您可以在将配方应用于整个数据集之前修改配方。

晚于 DataBrew 已在数据集上运行配方,输出将存储在 Amazon Simple Storage Service (Amazon S3) 中。在清理好的准备好的数据集在 Amazon S3 中之后,您的另一个数据存储或数据管理系统可以将其摄取。