什么是 Amazon Glue DataBrew? - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Glue DataBrew?

Amazon Glue DataBrew是一个可视化的数据准备工具,使用户能够清理和规范化数据,而无需编写任何代码。与自定义开发的数据准备相比,使用 Databrew 有助于将准备用于分析和机器学习 (ML) 的数据所需的时间缩短多达 80%。您可以从超过 250 个现成转换中进行选择,以自动执行数据准备任务,例如过滤异常、将数据转换为标准格式以及更正无效值。

使用 Databrew,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。因为 Databrew 是无服务器的,无论您的技术水平如何,您都可以探索和转换 TB 的原始数据,而无需创建集群或管理任何基础架构。

借助直观的 Databrew 界面,您可以以交互方式发现、可视化、清理和转换原始数据。Databrew 提供明智的建议,帮助您识别难以找到且需要花费时间修复的数据质量问题。通过 Databrew 准备数据,您可以利用时间对结果采取行动并更快地迭代。您可以将转换保存为配方中的步骤,以后可以与其他数据集一起更新或重复使用这些步骤,并持续部署。

下图显示 DatabreW 如何在高级别上运行。


            关于 Databrew 如何工作的简单图。Databrew 可以直观地清理、准备和转换数据,而无需编写代码。将出现一个框显示从 Amazon S3 进入数据库的数据。它显示了 Databrew 可以执行的几个转换的框。变换框包括以下内容:格式化、清理和标准化数据。重构和转换数据。处理丢失和无效的数据。处理类别变量。处理数字变量。使用自然语言处理。该图显示数据作为准备好的数据集导出到 S3。

要使用 Databrew,您需要创建一个项目并连接到您的数据。在项目工作区中,您可以看到数据显示在类似网格的可视界面中。在这里,您可以浏览数据并查看价值分布和图表,以了解其概要信息。

要准备数据,您可以从超过 250 个点击式转换中进行选择。这些包括删除空值,替换缺少的值,修复模式不一致,基于函数创建列等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子分割为短语。即时预览显示转换前后的一部分数据,因此您可以在将配方应用于整个数据集之前对其进行修改。

DatabreW 在数据集上运行配方后,输出将存储在 Amazon Simple Storage Service (Amazon S3) 中。经过清理、准备好的数据集位于 Amazon S3 中后,您的另一个数据存储或数据管理系统可以接收它。