Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
发行说明
Data Wrangler定期更新,添加新功能和错误修复。要升级你在 Studio 中使用的 Data Wrangler 版本,请按照中的说明进行操作关闭并更新 Studio 应用程序.
发行说明 |
10/12/2022
新功能:
现在,您可以为不同的数据集重复使用数据流。有关更多信息,请参阅 为不同的数据集重复使用数据流。
2022 年 5 月 10 日
新功能:
您现在可以使用主成分分析 (PCA) 作为变换。有关更多信息,请参阅 降低数据集内的维度。
2022 年 5 月 10 日
新功能:
现在,您可以重新调整 Data Wrangler 流程中的参数。有关更多信息,请参阅 Export。
2022 年 3 月 10 日
新功能:
现在,您可以从 Data Wrangler 流程中部署模型。有关更多信息,请参阅 在数据流中自动训练模型。
2022 年 9 月 20 日
新功能:
您现在可以在 Athena 中设置数据保留期。有关更多信息,请参阅 从 Athena 导入数据。
6/9/2022
新功能:
您现在可以使用亚马逊了 SageMaker 自动驾驶仪可直接从您的数据管理器流程中训练模型。有关更多信息,请参阅 在数据流中自动训练模型。
2022 年 5 月 6 日
新功能:
您现在可以使用额外的 m5 和 r5 实例。有关更多信息,请参阅 实例。
2022 年 4 月 27 日
新功能:
2022 年 4 月 1 日
新功能:
您现在可以使用 Databricks 作为数据源。有关更多信息,请参阅 从 Databricks (JDBC) 导入数据。
2022 年 2 月 2 日
新功能:
-
现在,您可以使用目标节点进行导出。有关更多信息,请参阅Export
-
你可以导入 ORC 和 JSON 文件。有关文件类型的更多信息,请参阅导入.
-
Data Wrangler 现在支持使用 SMOTE 转换。有关更多信息,请参阅 余额数据。
-
Data Wrangler 现在支持分类数据的相似编码。有关更多信息,请参阅 相似度编码。
-
Data Wrangler 现在支持取消嵌套 JSON 数据。有关更多信息,请参阅 取消嵌套 JSON 数据。
-
Data Wrangler 现在支持将数组的值扩展到单独的列中。有关更多信息,请参阅 爆炸数组。
-
Data Wrangler 现在支持在遇到问题时联系服务团队。有关更多信息,请参阅 问题排查。
-
Data Wrangler 支持编辑和删除数据流中的步骤。有关更多信息,请参阅 从您的数据流中删除一个步骤 和 编辑 Data Wrangler 流程中的一个步骤。
-
您现在可以对多列执行转换。有关更多信息,请参阅 转换数据。
-
数据管理者现在支持成本分配标签。有关更多信息,请参阅使用成本分配标签。
2021 年 10 月 16 日
新功能:
Data Wrangler 现在支持 Athena 工作组。有关更多信息,请参阅 从 Athena 导入数据。
2021 年 6 月 10 日
新功能:
Data Wrangler 现在支持转换时间序列数据。有关更多信息,请参阅 转换时间序列。
7/15/2021
新功能:
-
雪花和数据牧马者现支持。你可以在 Data Wrangler 中使用雪花作为数据源。
-
在 CSV 中添加了对自定义字段分隔符的支持。现在支持逗号、冒号、分号、竖线 (|) 和 Tab。
-
现在可以将结果直接导出到 Amazon S3。
-
添加了一些新的多重共线性分析器:方差通货膨胀因子、主成分分析和套索特征选择。
增强功能:
错误修复:
-
One-Hot 编码器可以优雅地处理空字符串。
-
修复了当数据框列名包含点时发生的崩溃问题。
4/26/2021
增强功能:
-
增加了对分布式处理作业的支持。运行处理任务时可以使用多个实例。
-
现在,当估计的结果大小小于 1 千兆字节时,Data Wrangler 处理作业会自动合并少量输出。
-
特色商店笔记本电脑:提高了feature store 的摄取性能
-
Data Wrangler 处理作业现在使用 1.x 作为future 版本的权威容器标签。
错误修复:
2/8/2021
新功能:
-
Data Wrangler Flows 支持多个实例。
-
更新了 “导出到 Data Wrangler Job 笔记本” 以供使用 SageMaker SDK 2.20.0。
-
更新了 “导出到流水线笔记本” 以供使用 SageMaker SDK 2.20.0。
-
更新了 “导出到流水线笔记本”,将 XGBoost 训练示例添加为可选步骤。
增强功能:
错误修复:
-
修复了快速模型中的类型推断问题。
-
修复了偏差报告中的偏差指标错误。
-
修复了 Featureize 文本转换以处理缺失值的列的问题。
-
修复了直方图和散点图内置可视化效果以处理包含类数组列的数据集的问题。
-
如果查询执行 ID 已过期,Athena 查询现在会重新运行。
|