发布说明 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发布说明

Data Wrangler 会定期更新新功能和错误修复。要升级您在 Studio Classic 中使用的 Data Wrangler 版本,请按照中的说明进行操作。关闭并更新 Studio 经典版应用程序

发布说明

8/31/2023

新功能:

您现在可以针对整个数据集创建“数据质量和见解”报告。有关更多信息,请参阅 获取有关数据和数据质量的见解

2023 年 5 月 20 日

新功能:

您现在可以从 Salesforce Data Cloud 导入数据。有关更多信息,请参阅 从 Salesforce Data Cloud 导入数据

2023 年 4 月 18 日

新功能:

您现在可以用 Amazon Personalize 能解释的格式获取数据。有关更多信息,请参阅 为 Amazon Personalize 映射列

2023 年 1 月 3 日

新功能:

您现在可以使用 Hive 从 Amazon EMR 导入数据。有关更多信息,请参阅 从 Amazon EMR 导入数据

12/10/2022

新功能:

您现在可以将 Data Wrangler 流导出至推理端点。有关更多信息,请参阅 导出到推理端点

新功能:

您现在可以使用交互式笔记本小部件进行数据准备。有关更多信息,请参阅 使用 Amazon SageMaker Studio 经典笔记本中的交互式数据准备小工具获取数据见解

新功能:

您现在可以从 SaaS 平台导入数据。有关更多信息,请参阅 从软件即服务 (SaaS) 平台导入数据

2022 年 12 月 10 日

新功能:

您现在可以为不同的数据集重用数据流。有关更多信息,请参阅 针对不同数据集重用数据流

2022 年 5 月 10 日

新功能:

您现在可以使用主成分分析 (PCA) 作为转换。有关更多信息,请参阅 降低数据集中的维度

2022 年 5 月 10 日

新功能:

您现在可以在 Data Wrangler 流中重新拟合参数。有关更多信息,请参阅 导出

10/03/2022

新功能:

您现在可以从 Data Wrangler 流部署模型。有关更多信息,请参阅 根据您的数据流自动训练模型

2022 年 9 月 20 日

新功能:

您现在可以在 Athena 中设置数据保留期。有关更多信息,请参阅 从 Athena 导入数据

2022 年 9 月 6 日

新功能:

现在,您可以使用 Amazon A SageMaker utopilot 直接从 Data Wrangler 流程中训练模型。有关更多信息,请参阅 根据您的数据流自动训练模型

2022 年 6 月 5 日

新功能:

您现在可以使用更多 m5 和 r5 实例。有关更多信息,请参阅 实例

2022 年 4 月 27 日

新功能:

2022 年 1 月 4 日

新功能:

您现在可以使用 Databricks 作为数据源。有关更多信息,请参阅 从 Databricks (JDBC) 导入数据

2022 年 2 月 2 日

新功能:

  • 您现在可以使用目标节点导出。有关更多信息,请参阅导出

  • 您可以导入 ORC 和 JSON 文件。有关文件类型的更多信息,请参阅导入

  • Data Wrangler 现在支持使用 SMOTE 转换。有关更多信息,请参阅 平衡数据

  • Data Wrangler 现在支持分类数据的相似性编码。有关更多信息,请参阅 相似性编码

  • Data Wrangler 现在支持取消嵌套 JSON 数据。有关更多信息,请参阅 取消嵌套 JSON 数据

  • Data Wrangler 现在支持将数组的值扩展为单独的列。有关更多信息,请参阅 爆炸数组

  • Data Wrangler 现在支持您在遇到问题时可联系服务团队。有关更多信息,请参阅 故障排除

  • Data Wrangler 支持编辑和删除数据流中的步骤。有关更多信息,请参阅从数据流中删除一个步骤编辑 Data Wrangler 流中的步骤

  • 您现在可以对多列执行转换。有关更多信息,请参阅 转换数据

  • Data Wrangler 现在支持成本分配标签。有关更多信息,请参阅使用成本分配标签

2021 年 10 月 16 日

新功能:

Data Wrangler 现在支持 Athena 工作组。有关更多信息,请参阅 从 Athena 导入数据

2021 年 6 月 10 日

新功能:

Data Wrangler 现在支持转换时间序列数据。有关更多信息,请参阅 转换时间序列

7/15/2021

新功能:

  • 现在支持 Snowflake 和 Data Wrangler。您可以在 Data Wrangler 中使用 Snowflake 作为数据源。

  • 添加了对 CSV 中自定义字段分隔符的支持。现在支持逗号、冒号、分号、管线符号 (|) 和 Tab。

  • 您现在可以将结果直接导出至 Amazon S3。

  • 添加了一些新的多共线性分析仪:方差膨胀因子、主成分分析和套索功能选择。

增强功能:

  • 分析图表不会再被重叠的标签填满。

错误修复:

  • 独热编码器可平稳处理空字符串。

  • 修复了当数据框列名包含点时发生的崩溃问题。

2021 年 4 月 26 日

增强功能:

  • 增加了对分布式处理作业的支持。运行处理作业时,您可以使用多个实例。

  • 当估计结果大小不足 1 GB 时,Data Wrangler 处理作业现在可自动合并小的输出。

  • Feature Store 笔记本:改进了特征存放区摄取性能

  • Data Wrangler 处理作业现在使用 1.x 作为未来版本的权威容器标签。

错误修复:

  • 修复了多面直方图的渲染问题。

  • 修复了导出至处理作业,以支持向量类型列。

  • 修复了 Extract using regex 运算符,如果正则表达式中存在一个或多个组,则返回第一个捕获的组。

2021 年 8 月 2 日

新功能:

  • Data Wrangler 流支持多个实例。

  • 将导出到 Data Wrangler Job Notebook 更新为使用 SageMaker SDK 2.20.0。

  • 更新了导出到流水线笔记本以使用 SageMaker SDK 2.20.0。

  • 更新了“导出至管线笔记本”,以添加 XGBoost 训练示例作为可选步骤。

增强功能:

  • 为了提高性能,不再支持导入在单个字段中包含多行的 CSV 文件。

错误修复:

  • 修复了 Quick 模型中的类型推理问题。

  • 修复了偏差报告中的偏差指标错误。

  • 修复了特征化文本转换,以处理含缺失值的列。

  • 修复了直方图和散点图内置的可视化效果,以处理包含类似数组列的数据集。

  • 如果查询执行 ID 已过期,Athena 查询现在会重新运行。