本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 Amazon Glue DataBrew?
Amazon Glue DataBrew是一种可视化数据准备工具,使用户无需编写任何代码即可清理和标准化数据。使用 DataBrew 与自定义开发的数据准备相比,有助于将为分析和机器学习 (ML) 准备数据所需的时间缩短了 80%。您可以从 250 多个现成的转换中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。
使用 DatabReW,业务分析师、数据科学家和数据工程师可以更轻松地进行协作,从原始数据中获取见解。由于 DataBrew 无服务器,无论您的技术水平如何,您都可以探索和转换 TB 的原始数据,而无需创建群集或管理任何基础架构。
用直观 DataBrew 界面,您可以以交互方式发现、可视化、清理和转换原始数据。 DataBrew 提出明智的建议,以帮助您识别难以找到且耗时修复的数据质量问题。与 DataBrew 准备数据后,您可以利用时间对结果采取行动并更快地迭代。您可以将转换另存为配方中的步骤,以后可以将其与其他数据集一起更新或重复使用,并持续部署。
下图显示了如何 DataBrew 在较高层面上运行。

要使用 DatabReW,您需要创建一个项目并连接到数据。在项目工作区中,您可以看到数据显示在类似网格的可视化界面中。在这里,您可以浏览数据并查看价值分布和图表以了解其概况。
为了准备数据,您可以选择超过 250 个 point-and-click 转换。其中包括删除空值、替换缺失的值、修复模式不一致、基于函数创建列等。您还可以使用转换来应用自然语言处理 (NLP) 技术将句子拆分为短语。即时预览会显示转换之前和之后的一部分数据,因此您可以在将配方应用于整个数据集之前修改配方。
晚于 DataBrew 已在数据集上运行配方,输出将存储在 Amazon Simple Storage Service (Amazon S3) 中。在清理好的准备好的数据集在 Amazon S3 中之后,您的另一个数据存储或数据管理系统可以将其摄取。