更新数据集 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

更新数据集

将初始数据集导入 Amazon SageMaker Canvas 后,您可能还有其他数据要添加到数据集中。例如,您可能会在每周末获得想要添加到数据集中的库存数据。您可以更新现有数据集并在其中添加或删除文件,而不必多次导入数据。

注意

您只能更新通过本地上传或 Amazon S3 导入的数据集。

您可以手动或自动更新数据集。通过自动更新,您可以指定 Canvas 按您指定的频率检查文件的位置。如果您在更新期间导入新文件,则这些文件的架构必须与现有数据集完全匹配。

每次更新数据集时,Canvas 都会为数据集创建一个新版本。您只能使用最新版本的数据集来构建模型或生成预测。有关查看数据集版本历史记录的更多信息,请参阅查看数据集详细信息

您还可以将数据集更新与自动批量预测结合使用,这样每当您更新数据集时,都会启动批量预测作业。有关更多信息,请参阅 进行批量预测

下面几节介绍如何对数据集进行手动和自动更新。

手动更新数据集

要手动更新,请执行以下操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择数据集

  3. 从数据集列表中,选择要更新的数据集。

  4. 选择更新数据集下拉菜单,然后选择手动更新。您会进入导入数据工作流。

  5. 数据来源下拉菜单中,选择本地上传Amazon S3

  6. 该页面显示您的数据预览。在这里,您可以在数据集中添加或删除文件。如果要导入表格数据,则新文件的架构(列名和数据类型)必须与现有文件的架构相匹配。此外,新文件不得超过最大数据集大小或文件大小。有关这些限制的更多信息,请参阅导入数据集

    注意

    如果您添加与数据集中现有文件同名的文件,则新文件将覆盖该文件的旧版本。

  7. 如果您已准备好保存更改,请选择更新数据集

现在,您应该有了一个新版本的数据集。

数据集页面上,您可以选择版本历史记录选项卡,查看数据集的所有版本以及手动和自动更新的历史记录。

配置数据集自动更新

自动更新是指为 Canvas 设置一个配置,使其按指定频率更新数据集。如果您经常收到要添加到数据集的新数据文件,我们建议您使用此选项。

设置自动更新配置时,您可以指定上传文件的 Amazon S3 位置以及 Canvas 检查该位置和导入文件的频率。Canvas 更新数据集的每个实例都称为作业。对于每个作业,Canvas 都会导入 Amazon S3 位置中的所有文件。如果您有与数据集中现有文件同名的新文件,Canvas 会用新文件覆盖旧文件。

对于数据集的自动更新,Canvas 不执行架构验证。如果在自动更新期间导入的文件架构与现有文件的架构不匹配或超过大小限制(有关文件大小限制表,请参阅导入数据集),则作业运行时会出现错误。

注意

在 Canvas 应用程序中,您最多只能设置 20 个自动配置。此外,Canvas 仅在您登录 Canvas 应用程序时才会执行自动更新。如果您从 Canvas 应用程序注销,则自动更新会暂停,直到您重新登录。

要配置数据集的自动更新,请执行以下操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择数据集

  3. 从数据集列表中,选择要更新的数据集。

  4. 选择更新数据集下拉菜单,然后选择自动更新。您将进入数据集的自动更新选项卡。

  5. 打开启用自动更新开关。

  6. 指定数据来源中,输入您计划定期上传文件的文件夹的 Amazon S3 路径。

  7. 选择频率中,选择每小时每周每天

  8. 指定开始时间中,使用日历和时间选择器选择您希望第一个自动更新作业何时开始。

  9. 准备好创建自动更新配置后,选择保存

Canvas 会在指定的开始时间启动自动更新序列的第一个作业。

有关通过 Canvas 应用程序的自动化页面查看自动更新作业历史记录或更改自动更新配置的更多信息,请参阅管理自动化操作

以下几节介绍如何通过 Canvas 应用程序中的数据集页面查看、更新和删除自动更新配置。

查看数据集自动更新作业

要查看数据集自动更新作业的历史记录,请在数据集详细信息页面上,选择自动更新选项卡。

对数据集的每次自动更新都会在作业历史记录部分下的自动更新选项卡中显示为作业。对于每个作业,您可以看到以下内容:

  • 作业创建时间 – Canvas 开始更新数据集的时间戳。

  • 文件 - 数据集中的文件数。

  • 单元格(列 x 行)- 数据集中的列数和行数。

  • 状态 - 更新后数据集的状态。如果作业成功,则状态为就绪。如果作业因任何原因失败,则状态为失败,您可以将鼠标悬停在状态上以获取更多详细信息。

编辑数据集自动更新配置

您可能需要更改数据集的自动更新配置,例如更改更新频率。您可能还需要关闭自动更新配置以暂停对数据集的更新。

要更改数据集的自动更新配置,请转到数据集的自动更新选项卡,然后选择编辑以更改配置。

要暂停数据集更新,请关闭自动配置。您可以前往数据集的自动更新选项卡并关闭启用自动更新开关,从而关闭自动更新。您可以随时重新打开此开关以恢复更新计划。

删除数据集自动更新配置

要了解如何删除配置,请参阅删除自动配置