发布说明 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发布说明

Data Wrangler 会定期更新新功能和错误修复。要升级在 Studio Classic 中使用的 Data Wrangler 版本,请按照 关闭并更新 Studio Classic 应用程序 中的说明操作。

发布说明

8/31/2023

新功能:

您现在可以针对整个数据集创建“数据质量和见解”报告。有关更多信息,请参阅 获取有关数据和数据质量的见解

2023 年 5 月 20 日

新功能:

您现在可以从 Salesforce Data Cloud 导入数据。有关更多信息,请参阅 从 Salesforce Data Cloud 导入数据

2023 年 4 月 18 日

新功能:

您现在可以用 Amazon Personalize 能解释的格式获取数据。有关更多信息,请参阅 为 Amazon Personalize 映射列

2023 年 1 月 3 日

新功能:

您现在可以使用 Hive 从 Amazon EMR 导入数据。有关更多信息,请参阅 从 Amazon EMR 导入数据

12/10/2022

新功能:

您现在可以将 Data Wrangler 流导出至推理端点。有关更多信息,请参阅 导出到推理端点

新功能:

您现在可以使用交互式笔记本小部件进行数据准备。有关更多信息,请参阅 使用 Amazon SageMaker Studio 经典笔记本中的交互式数据准备小工具获取数据见解

新功能:

您现在可以从 SaaS 平台导入数据。有关更多信息,请参阅 从软件即服务 (SaaS) 平台导入数据

2022 年 12 月 10 日

新功能:

您现在可以为不同的数据集重用数据流。有关更多信息,请参阅 针对不同数据集重用数据流

2022 年 5 月 10 日

新功能:

您现在可以使用主成分分析 (PCA) 作为转换。有关更多信息,请参阅 降低数据集中的维度

2022 年 5 月 10 日

新功能:

您现在可以在 Data Wrangler 流中重新拟合参数。有关更多信息,请参阅 导出

10/03/2022

新功能:

您现在可以从 Data Wrangler 流部署模型。有关更多信息,请参阅 根据您的数据流自动训练模型

2022 年 9 月 20 日

新功能:

您现在可以在 Athena 中设置数据保留期。有关更多信息,请参阅 从 Athena 导入数据

2022 年 9 月 6 日

新功能:

现在,您可以使用 Amazon A SageMaker utopilot 直接从 Data Wrangler 流程中训练模型。有关更多信息,请参阅 根据您的数据流自动训练模型

2022 年 6 月 5 日

新功能:

您现在可以使用更多 m5 和 r5 实例。有关更多信息,请参阅 实例

2022 年 4 月 27 日

新功能:

2022 年 1 月 4 日

新功能:

您现在可以使用 Databricks 作为数据源。有关更多信息,请参阅 从 Databricks (JDBC) 导入数据

2022 年 2 月 2 日

新功能:

  • 您现在可以使用目标节点导出。有关更多信息,请参阅 导出

  • 您可以导入 ORC 和 JSON 文件。有关文件类型的更多信息,请参阅导入

  • Data Wrangler 现在支持使用 SMOTE 转换。有关更多信息,请参阅 平衡数据

  • Data Wrangler 现在支持分类数据的相似性编码。有关更多信息,请参阅 相似性编码

  • Data Wrangler 现在支持取消嵌套 JSON 数据。有关更多信息,请参阅 取消嵌套 JSON 数据

  • Data Wrangler 现在支持将数组的值扩展为单独的列。有关更多信息,请参阅 爆炸数组

  • Data Wrangler 现在支持您在遇到问题时可联系服务团队。有关更多信息,请参阅 故障排除

  • Data Wrangler 支持编辑和删除数据流中的步骤。有关更多信息,请参阅从数据流中删除一个步骤编辑 Data Wrangler 流中的步骤

  • 您现在可以对多列执行转换。有关更多信息,请参阅 转换数据

  • Data Wrangler 现在支持成本分配标签。有关更多信息,请参阅使用成本分配标签

2021 年 10 月 16 日

新功能:

Data Wrangler 现在支持 Athena 工作组。有关更多信息,请参阅 从 Athena 导入数据

2021 年 6 月 10 日

新功能:

Data Wrangler 现在支持转换时间序列数据。有关更多信息,请参阅 转换时间序列

7/15/2021

新功能:

  • 现在支持 Snowflake 和 Data Wrangler。您可以在 Data Wrangler 中使用 Snowflake 作为数据源。

  • 添加了对 CSV 中自定义字段分隔符的支持。现在支持逗号、冒号、分号、管线符号 (|) 和 Tab。

  • 您现在可以将结果直接导出至 Amazon S3。

  • 添加了一些新的多共线性分析仪:方差膨胀因子、主成分分析和套索功能选择。

增强功能:

  • 分析图表不会再被重叠的标签填满。

错误修复:

  • 独热编码器可平稳处理空字符串。

  • 修复了当数据框列名包含点时发生的崩溃问题。

2021 年 4 月 26 日

增强功能:

  • 增加了对分布式处理作业的支持。运行处理作业时,您可以使用多个实例。

  • 当估计结果大小不足 1 GB 时,Data Wrangler 处理作业现在可自动合并小的输出。

  • Feature Store 笔记本:改进了特征存放区摄取性能

  • Data Wrangler 处理作业现在使用 1.x 作为未来版本的权威容器标签。

错误修复:

  • 修复了多面直方图的渲染问题。

  • 修复了导出至处理作业,以支持向量类型列。

  • 修复了 Extract using regex 运算符,如果正则表达式中存在一个或多个组,则返回第一个捕获的组。

2021 年 8 月 2 日

新功能:

  • Data Wrangler 流支持多个实例。

  • 将导出到 Data Wrangler Job Notebook 更新为使用 SageMaker SDK 2.20.0。

  • 更新了导出到流水线笔记本以使用 SageMaker SDK 2.20.0。

  • 更新了 “导出到管道笔记本”,添加了 XGBoost 训练示例作为可选步骤。

增强功能:

  • 为了提高性能,不再支持导入在单个字段中包含多行的 CSV 文件。

错误修复:

  • 修复了 Quick 模型中的类型推理问题。

  • 修复了偏差报告中的偏差指标错误。

  • 修复了特征化文本转换,以处理含缺失值的列。

  • 修复了直方图和散点图内置的可视化效果,以处理包含类似数组列的数据集。

  • 如果查询执行 ID 已过期,Athena 查询现在会重新运行。