

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 导入数据
<a name="canvas-importing-data"></a>

Amazon SageMaker Canvas 支持导入表格、图像和文档数据。您可以从本地计算机、Amazon S3 和 Amazon Redshift 等 Amazon 服务以及外部数据来源导入数据集。从 Amazon S3 导入数据集时，您可以导入任意大小的数据集。使用导入的数据集来构建模型并对其他数据集进行预测。

您可以为其构建自定义模型的每个使用案例都接受不同类型的输入。例如，如果要构建单标签图像分类模型，则应导入图像数据。有关不同的模型类型及其接受的数据的更多信息，请参阅[自定义模型的工作原理](canvas-build-model.md)。您可以在 C SageMaker anvas 中为以下数据类型导入数据并构建自定义模型：
+ **表格**（CSV、Parquet 或表格）
  + 分类 - 使用分类数据构建自定义分类预测模型，以进行 2 和 3\+ 类别预测。
  + 数值 - 使用数值数据构建自定义数值预测模型。
  + 文本 - 使用文本数据构建自定义的多元文本预测模型。
  + 时间序列 - 使用时间序列数据构建自定义的时间序列预测模型。
+ **图像**（JPG 或 PNG）- 使用图像数据构建自定义的单标签图像预测模型。
+ **文档**（PDF、JPG、PNG、TIFF）-仅 SageMaker 画布 Ready-to-use模型支持文档数据。要详细了解可以预测文档数据的 Ready-to-use模型，请参阅[Ready-to-use 模型](canvas-ready-to-use-models.md)。

您可以从以下数据来源将数据导入 Canvas：
+ 计算机上的本地文件
+ Amazon S3 存储桶
+ Amazon Redshift 预配置集群（非 Amazon Redshift Serverless）
+ Amazon Glue Data Catalog 通过亚马逊 Athena
+ Amazon Aurora
+ Amazon Relational Database Service (Amazon RDS)
+ Salesforce Data Cloud
+ Snowflake
+ 通过 JDBC 连接器实现的 Databricks、M SQLServer ariaDB 和其他常用数据库
+ 40 多个外部 SaaS 平台，例如 SAP OData

有关可以从中导入数据的数据来源的完整列表，请参阅下表：


| 来源 | Type | 支持的数据类型 | 
| --- | --- | --- | 
| 本地文件上传 | 本地 | 表格、图像、文档 | 
| Amazon Aurora | Amazon 内部 | 表格 | 
| 亚马逊 S3 存储桶 | Amazon 内部 | 表格、图像、文档 | 
| Amazon RDS | Amazon 内部 | 表格 | 
| Amazon Redshift 预配置集群（非 Redshift Serverless） | Amazon 内部 | 表格 | 
| Amazon Glue Data Catalog （通过亚马逊 Athena） | Amazon 内部 | 表格 | 
| [Databricks](https://www.databricks.com/) | 外部 | 表格 | 
| Snowflake | 外部 | 表格 | 
| [Salesforce Data Cloud](https://www.salesforce.com/products/genie/overview/) | 外部 | 表格 | 
| SQLServer | 外部 | 表格 | 
| MySQL | 外部 | 表格 | 
| PostgreSQL | 外部 | 表格 | 
| MariaDB | 外部 | 表格 | 
| [Amplitude](https://docs.amazonaws.cn/appflow/latest/userguide/amplitude.html) | 外部 SaaS 平台 | 表格 | 
| [CircleCI](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-circleci.html) | 外部 SaaS 平台 | 表格 | 
| [DocuSign 监控](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-docusign-monitor.html) | 外部 SaaS 平台 | 表格 | 
| [Domo](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-domo.html) | 外部 SaaS 平台 | 表格 | 
| [Datadog](https://docs.amazonaws.cn/appflow/latest/userguide/datadog.html) | 外部 SaaS 平台 | 表格 | 
| [Dynatrace](https://docs.amazonaws.cn/appflow/latest/userguide/dynatrace.html) | 外部 SaaS 平台 | 表格 | 
| [Facebook Ads](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-facebook-ads.html) | 外部 SaaS 平台 | 表格 | 
| [Facebook Page Insights](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-facebook-page-insights.html) | 外部 SaaS 平台 | 表格 | 
| [Google Ads](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-google-ads.html) | 外部 SaaS 平台 | 表格 | 
| [Google Analytics 4](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-google-analytics-4.html) | 外部 SaaS 平台 | 表格 | 
| [Google Search Console](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-google-search-console.html) | 外部 SaaS 平台 | 表格 | 
| [GitHub](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-github.html) | 外部 SaaS 平台 | 表格 | 
| [GitLab](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-gitlab.html) | 外部 SaaS 平台 | 表格 | 
| [Infor Nexus](https://docs.amazonaws.cn/appflow/latest/userguide/infor-nexus.html) | 外部 SaaS 平台 | 表格 | 
| [Instagram Ads](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-instagram-ads.html) | 外部 SaaS 平台 | 表格 | 
| [Jira Cloud](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-jira-cloud.html) | 外部 SaaS 平台 | 表格 | 
| [LinkedIn 广告](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS 平台 | 表格 | 
| [LinkedIn 广告](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-linkedin-ads.html) | 外部 SaaS 平台 | 表格 | 
| [Mailchimp](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-mailchimp.html) | 外部 SaaS 平台 | 表格 | 
| [Marketo](https://docs.amazonaws.cn/appflow/latest/userguide/marketo.html) | 外部 SaaS 平台 | 表格 | 
| [Microsoft Teams](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-microsoft-teams.html) | 外部 SaaS 平台 | 表格 | 
| [Mixpanel](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-mixpanel.html) | 外部 SaaS 平台 | 表格 | 
| [Okta](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-okta.html) | 外部 SaaS 平台 | 表格 | 
| [Salesforce](https://docs.amazonaws.cn/appflow/latest/userguide/salesforce.html) | 外部 SaaS 平台 | 表格 | 
| [Salesforce Marketing Cloud](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-salesforce-marketing-cloud.html) | 外部 SaaS 平台 | 表格 | 
| [Salesforce Pardot](https://docs.amazonaws.cn/appflow/latest/userguide/pardot.html) | 外部 SaaS 平台 | 表格 | 
| [SAP OData](https://docs.amazonaws.cn/appflow/latest/userguide/sapodata.html) | 外部 SaaS 平台 | 表格 | 
| [SendGrid](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-sendgrid.html) | 外部 SaaS 平台 | 表格 | 
| [ServiceNow](https://docs.amazonaws.cn/appflow/latest/userguide/servicenow.html) | 外部 SaaS 平台 | 表格 | 
| [Singular](https://docs.amazonaws.cn/appflow/latest/userguide/singular.html) | 外部 SaaS 平台 | 表格 | 
| [Slack](https://docs.amazonaws.cn/appflow/latest/userguide/slack.html) | 外部 SaaS 平台 | 表格 | 
| [Stripe](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-stripe.html) | 外部 SaaS 平台 | 表格 | 
| [Trend Micro](https://docs.amazonaws.cn/appflow/latest/userguide/trend-micro.html) | 外部 SaaS 平台 | 表格 | 
| [Typeform](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-typeform.html) | 外部 SaaS 平台 | 表格 | 
| [Veeva](https://docs.amazonaws.cn/appflow/latest/userguide/veeva.html) | 外部 SaaS 平台 | 表格 | 
| [Zendesk](https://docs.amazonaws.cn/appflow/latest/userguide/zendesk.html) | 外部 SaaS 平台 | 表格 | 
| [Zendesk Chat](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-zendesk-chat.html) | 外部 SaaS 平台 | 表格 | 
| [Zendesk Sell](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-zendesk-sell.html) | 外部 SaaS 平台 | 表格 | 
| [Zendesk Sunshine](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-zendesk-sunshine.html) | 外部 SaaS 平台 | 表格 | 
| [Zoom Meetings](https://docs.amazonaws.cn/appflow/latest/userguide/connectors-zoom.html) | 外部 SaaS 平台 | 表格 | 

有关如何导入数据的说明和输入数据要求的信息，如图像的最大文件大小，请参阅[创建数据集](canvas-import-dataset.md)。

Canvas 还在您的应用程序中提供了多个示例数据集以帮助您快速入门。要详细了解您可以尝试的 SageMaker AI 提供的示例数据集，请参阅[使用示例数据集](https://docs.amazonaws.cn/sagemaker/latest/dg/canvas-sample-datasets.html)。

将数据集导入 Canvas 后，您可以随时更新数据集。您可以进行手动更新，也可以设置自动更新数据集的时间表。有关更多信息，请参阅 [更新数据集](canvas-update-dataset.md)。

请参阅下面几节，了解有关每种数据集类型的更多信息：

**表格**

要从外部数据来源（例如 Snowflake 数据库或 SaaS 平台）导入数据，必须在 Canvas 应用程序中向数据来源进行身份验证并连接到该数据来源。有关更多信息，请参阅 [连接到数据来源](canvas-connecting-external.md)。

如果您要将大于 5 GB 的数据集从 Amazon S3 导入 Canvas，则可以使用 Amazon Athena 从 Amazon S3 查询和采样数据，从而加快采样速度。

在 Canvas 中创建数据集后，您可以使用 Data Wrangler 的数据准备功能来准备和转换数据。您可以使用 Data Wrangler 处理缺失值、转换功能、将多个数据集合并为单个数据集等。有关更多信息，请参阅 [数据准备](canvas-data-prep.md)。

**提示**  
只要将数据排列成表格，就可以连接来自 Amazon Redshift、Amazon Athena 或 Snowflake 等不同来源的数据集。

**图像**

有关如何编辑图像数据集以及如何执行诸如分配或重新分配标签、添加图像或删除图像之类的任务的信息，请参阅[编辑图像数据集](canvas-edit-image.md)。