什么是 Amazon Glue DataBrew?
Amazon Glue DataBrew 是一款可视化数据准备工具,让用户无需编写任何代码即可清理数据并实现标准化。与自定义开发的数据准备相比,使用 DataBrew 可以让准备数据用于分析和机器学习(ML)所需的时间缩短多达 80%。您可以从 250 多种现成的转换功能中进行选择,以自动执行数据准备任务,例如筛选异常、将数据转换为标准格式以及更正无效值。
使用 DataBrew,业务分析师、数据科学家和数据工程师可以更轻松地协作从原始数据中获取见解。由于 DataBrew 无服务器,因此无论您的技术水平如何,都可以浏览和转换数 TB 的原始数据,而无需创建集群或管理任何基础设施。
借助直观的 DataBrew 界面,您能够以交互方式发现、可视化、清理和转换原始数据。DataBrew 可提供智能建议,以帮助您识别难以发现且修复起来耗时的数据质量问题。借助 DataBrew 准备数据,您可以利用自己的时间根据结果采取行动,并更快地进行迭代。您可以将转换保存为配方中的步骤,稍后可以对其进行更新或在其他数据集中重复使用,并持续部署。
下图大致展示了 DataBrew 的工作方式。
要使用 DataBrew,请创建一个项目并连接到您的数据。在项目工作区中,您可以看到您的数据显示在类似网格的可视界面中。在这里,您可以浏览数据并查看值分布情况和图表,以便了解其概况。
要准备数据,您可以从 250 多种点击式转换中进行选择,其中包括移除空值、替换缺失值、修复架构不一致、基于函数创建列等。您还可以使用转换来应用自然语言处理(NLP)技术,将句子拆分为短语。即时预览可以显示转换前后的部分数据,因此您可以在将配方应用于整个数据集之前对其进行修改。
在 DataBrew 对数据集运行配方后,输出将存储在 Amazon Simple Storage Service(Amazon S3)中。将经过清理的准备好的数据集存入 Amazon S3 后,您的其他数据存储或数据管理系统便可以摄取它。