《Amazon Glue DataBrew 开发人员指南》的文档历史记录
当前 API 版本:databrew-2017-07-25
下表介绍了此版本 Amazon Glue DataBrew 的文档。如果您希望在《Amazon Glue DataBrew 开发人员指南》更新时收到通知,可以订阅 RSS 源。
| 变更 | 说明 | 日期 |
|---|---|---|
将 glue:GetCustomEntityType 添加到了 Amazon 托管式策略中 | 在启用 PII 识别的情况下执行 Amazon Glue DataBrew 剖析作业需要具有此权限。有关更多信息,请参阅 Amazon Glue DataBrew 对 Amazon 托管式策略的更新。 | 2024 年 3 月 20 日 |
在 CRYPTOGRAPHIC_HASH 转换中支持多种哈希算法 | 现在,您可以在对列中的值进行哈希处理时指定哈希算法。有关更多信息,请参阅 CRYPTOGRAPHIC_HASH。 | 2023 年 8 月 11 日 |
将 glue:BatchGetCustomEntityTypes 添加到了 Amazon 托管式策略中 | 在启用 PII 识别的情况下执行 Amazon Glue DataBrew 剖析作业需要具有此权限。有关更多信息,请参阅 Amazon Glue DataBrew 对 Amazon 托管式策略的更新。 | 2022 年 5 月 9 日 |
支持 Apache ORC 文件格式 | DataBrew 现在支持将 Apache ORC 作为 DataBrew 数据源和输出的文件格式。有关更多信息,请参阅数据源支持的文件类型。 | 2022 年 3 月 31 日 |
支持跨账户 Amazon Glue Data Catalog Amazon S3 访问 | 现在,如果在 Amazon Glue 控制台中创建了适当的资源策略,则可以从其他 Amazon Web Services 账户访问 Amazon Glue Data Catalog S3 表。创建策略后,可以在创建 DataBrew 数据集时选择将相关 Data Catalog S3 表作为输入源。有关更多信息,请参阅数据源和输出支持的连接。 | 2022 年 3 月 11 日 |
支持与 Amazon AppFlow 进行本机控制台集成 | DataBrew 现在已与 Amazon AppFlow 进行本机控制台集成。这种集成意味着您可以连接到 Salesforce、Zendesk、Slack、ServiceNow 和其他软件即服务(SaaS)应用程序中的数据。您还可以连接到 Amazon S3 和 Amazon Redshift 等 Amazon Web Services 服务中的数据。有关更多信息,请参阅数据源和输出支持的连接。 | 2021 年 11 月 18 日 |
支持数据质量规则 | DataBrew 现在支持创建数据质量规则,这些规则是可自定义的验证检查,用于定义对特定数据的业务要求。有关更多信息,请参阅在 Amazon Glue DataBrew 中验证数据质量。 | 2021 年 11 月 18 日 |
支持自定义 SQL 语句 | DataBrew 现在支持使用自定义 SQL 语句检索来自 Amazon Redshift 和 Snowflake 的数据。这种支持意味着您可以使用专门构建的查询来选择和限制从大型表返回的数据。有关更多信息,请参阅数据源和输出支持的连接。 | 2021 年 11 月 18 日 |
支持 PII 检测 | DataBrew 现在支持检测个人身份信息(PII)。这使您可以选择在数据准备期间屏蔽 PII。有关更多信息,请参阅识别和处理个人身份信息(PII)。 | 2021 年 11 月 18 日 |
支持其他 Amazon 区域 | DataBrew 现在支持其他 Amazon 区域。有关支持的区域列表,请参阅 Amazon Glue DataBrew 端点和配额。 | 2021 年 10 月 5 日 |
支持将数据写入基于 Lake Formation 的 Amazon S3 表类数据存储服务 | DataBrew 现在支持基于 Amazon Lake Formation 将数据写入 Amazon Glue Data Catalog S3 表。DataBrew 现在还支持将数据写入 Tableau Hyper 格式。有关更多信息,请参阅创建和使用 Amazon Glue DataBrew 配方作业。 | 2021 年 8 月 13 日 |
支持将数据写入 JDBC 目标 | DataBrew 现在支持将数据直接写入 JDBC 支持的数据库和数据仓库,包括 Amazon Redshift、Snowflake、Microsoft SQL Server、MySQL、Oracle Database 和 PostgreSQL。有关更多信息,请参阅创建和使用 Amazon Glue DataBrew 配方作业。 | 2021 年 7 月 23 日 |
支持指定为剖析作业生成哪些数据质量统计信息 | DataBrew 现在支持指定在剖析作业中为数据集自动生成哪些数据质量统计信息。有关更多信息,请参阅创建和使用 Amazon Glue DataBrew 配方作业。 | 2021 年 7 月 23 日 |
支持将数据集写入 Amazon Glue Data Catalog | DataBrew 现在支持将数据集直接写入 Amazon Glue Data Catalog。您可以选择将根据运行数据准备配方的作业创建的数据集存储在 Data Catalog 中的 Amazon S3、Amazon Redshift 和 Amazon RDS 表中。支持的 RDS 表包括 Amazon Aurora、RDS for Oracle、RDS for Microsoft SQL Server、RDS for MySQL 和 RDS for PostgreSQL 的表。 | 2021 年 6 月 30 日 |
支持识别高级数据类型 | DataBrew 现在支持自动识别和标记列中的高级数据类型,这样可以更加轻松地对包含某些类型数据的列进行标准化。这些类型的数据包括社会保障号码、电子邮件地址、电话号码、性别、信用卡、URL、IP 地址、日期和时间、货币、邮政编码、国家、地区、州和城市。 | 2021 年 6 月 30 日 |
支持使用 Amazon AppFlow 从 SAAS 应用程序传输数据 | DataBrew 现在支持使用 Amazon AppFlow 从第三方软件即服务(SaaS)应用程序(例如 Salesforce、Zendesk、Slack 和 ServiceNow)将数据传输到 Amazon S3。有关更多信息,请参阅数据源和输出支持的连接。 | 2021 年 4 月 29 日 |
支持使用来自 JDBC 数据库的输入创建 DataBrew 数据集 | DataBrew 现在支持根据 JDBC 支持的数据库和数据仓库中的数据创建数据集,包括 Amazon Redshift、Snowflake、Microsoft SQL Server、MySQL、Oracle Database 和 PostgreSQL。有关更多信息,请参阅数据源和输出支持的连接。 | 2021 年 4 月 2 日 |
支持其他 Amazon Web Services 区域 | DataBrew 现在支持其他 Amazon Web Services 区域。有关支持的区域列表,请参阅 Amazon Glue DataBrew 端点和配额。 | 2021 年 1 月 28 日 |
通过新转换处理重复 | DataBrew 控制台和 API 中添加了四种用于处理重复的新转换。有关更多信息,请参阅数据质量配方步骤中的 DELETE_DUPLICATE_ROWS、FLAG_DUPLICATE_ROWS、FLAG_DUPLICATES_IN_COLUMN 和 REMOVE_DUPLICATES。 | 2021 年 1 月 28 日 |
其他 CSV 分隔符 | DataBrew 现在支持用于创建 DataBrew 数据集的逗号分隔值(CSV)文件中除逗号以外的其他分隔符。有关更多信息,请参阅创建和使用 Amazon Glue DataBrew 数据集。 | 2021 年 1 月 28 日 |
JupyterLab 的 DataBrew 扩展 | 现在,您可以在 JupyterLab 中使用 Amazon Glue DataBrew 作为扩展。有关更多信息,请参阅在 JupyterLab 中使用 DataBrew 作为扩展。 | 2020 年 11 月 20 日 |
新数据准备工具:Amazon Glue DataBrew | 这是 Amazon Glue DataBrew 开发人员指南的首次发布。 | 2020 年 11 月 11 日 |