使用示例数据集 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用示例数据集

SageMaker Canvas 提供了解决独特用例的示例数据集,因此您无需编写任何代码即可快速开始构建、训练和验证模型。与这些数据集相关的用例突出显示了 SageMaker Canvas 的功能,您可以利用这些数据集开始构建模型。您可以在 C SageMaker anvas 应用程序的数据集页面中找到示例数据集。

示例数据集

以下数据集是 SageMaker Canvas 默认提供的示例。这些数据集涵盖的使用案例包括:预测房价、贷款违约和糖尿病患者再入院;预测销售额;预测机器故障以简化制造单位的预测性维护;以及为运输和物流生成供应链预测。数据集存储在为您在某个区域的账户 SageMaker 创建的默认 Amazon S3 存储桶中的sample_dataset文件夹中。

  • canvas-sample-diabetic-readmission.csv:此数据集包含历史数据,其中有超过 15 个患者和医院结果特征。您可以使用此数据集来预测高危糖尿病患者是否有可能在出院后 30 天内、30 天后再次入院,或者根本不可能再次入院。使用 redadmitted 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。此数据集来自 UCI 机器学习存储库

  • canvas-sample-housing.csv:此数据集包含与给定房价相关的特征数据。您可以使用此数据集来预测房价。使用 median_house_value 列作为目标列,并在此数据集中使用数值预测模型类型。要了解有关使用此数据集构建模型的更多信息,请参阅 SageMaker Canvas 研讨会页面。这是从StatLib 存储库中获得的加州住房数据集。

  • canvas-sample-loans.csv:此数据集包含 2007-2011 年期间发放的所有贷款的完整贷款数据,包括当前贷款状态和最新付款信息。您可以使用此数据集来预测客户是否会偿还贷款。使用 loan_status 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。这些数据使用从 Kaggle 获得 LendingClub 的数据。

  • canvas-sample-maintenance.csv:此数据集包含与给定维护故障类型相关的特征数据。您可以使用此数据集来预测将来会发生哪些故障。使用 Failure Type 列作为目标列,并对此数据集使用 3+ 类别预测模型类型。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。此数据集来自 UCI 机器学习存储库

  • canvas-sample-shipping-logs.csv:此数据集包含所有已交付产品的完整配送数据,包括预计配送优先顺序、承运商和起运地。您可以使用此数据集来预测货物的预计到达时间(以天数为单位)。使用 “ActualShipping天” 列作为目标列,并使用该数据集的数值预测模型类型。要详细了解如何使用这些数据构建模型,请参阅 SageMaker Canvas 研讨会页面。这是 Amazon 创建的合成数据集。

  • canvas-sample-sales-forecasting.csv:此数据集包含零售商店的历史时间序列销售数据。您可以使用此数据集来预测特定零售商店的销售额。使用销售列作为目标列,并将时间序列预测模型类型用于此数据集。要详细了解如何使用此数据集构建模型,请参阅 SageMaker Canvas 研讨会页面。这是 Amazon 创建的合成数据集。

重新导入已删除的示例数据集

如果您不想再使用示例数据集,可以将其从 C SageMaker anvas 应用程序的 “数据集” 页面中删除。不过,这些数据集仍存储在您指定为 Canvas 存储位置的 Amazon S3 存储桶中,因此您可以随时访问它们。

如果您使用的是默认的 Amazon S3 存储桶,则存储桶名称遵循模式 sagemaker-{region}-{account ID}。您可以在目录路径 Canvas/sample_dataset 中找到示例数据集。

如果您从 SageMaker Canvas 应用程序中删除示例数据集并想再次访问该示例数据集,请使用以下步骤。

  1. 在 C SageMaker anvas 应用程序中导航到 “数据集” 页面。

  2. 选择导入数据

  3. 从 Amazon S3 存储桶列表中,选择作为 Canvas 存储位置的存储桶。如果使用默认 SageMaker创建的 Amazon S3 存储桶,则它遵循命名模式sagemaker-{region}-{account ID}

  4. 选择 Canvas 文件夹。

  5. 选择 sample_dataset 文件夹,其中包含了 Canvas 的所有示例数据集。 SageMaker

  6. 选择要导入的数据集,然后选择导入数据