

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建数据流
<a name="canvas-data-flow"></a>

使用 Canva SageMaker s 中的 Data Wrangler 流程或*数据流*来创建和修改数据准备管道。我们建议您使用 Data Wrangler 处理超过 5 GB 的数据集。

要开始使用，请按照以下步骤将数据导入数据流中。

1. 打开 SageMaker 画布。

1. 在左侧导航栏选择 **Data Wrangler**。

1. 选择**导入并准备**。

1. 从下拉菜单中选择**表格**或**映像**。

1. 在**选择数据来源**中，选择数据来源并选择要导入的数据。您最多可以选择 30 个文件或一个文件夹。如果您已将数据集导入 Canvas，请选择 **Canvas 数据集**作为来源。否则，请连接到 Amazon S3 或 Snowflake 等数据来源并浏览数据。有关连接到数据来源或导入数据的信息，请参阅以下页面：
   + [导入数据](canvas-importing-data.md)
   + [连接到数据来源](canvas-connecting-external.md)

1. 选择要导入的数据后，选择**下一步**。

1. （可选）在导入表格数据集时，如需设置**导入设置**部分，请展开**高级**下拉菜单。您可以为数据流导入指定以下高级设置：
   + **采样方法**：选择要使用的采样方法和样本量。有关如何更改样本的更多信息，请参阅第 [编辑数据流采样配置](canvas-data-flow-edit-sampling.md) 节。
   + **文件编码 (CSV)**：选择数据集文件的编码。默认为 `UTF-8`。
   + **跳过第一行**：如果您在数据集的开头有多余的行，请输入您想跳过的导入行数。
   + **分隔符**：选择用于分隔数据中每项的分隔符。您还可以指定自定义分隔符。
   + **多行检测**：如果您希望 Canvas 手动解析整个数据集的多行单元格，请选择此选项。Canvas 通过采集数据样本来确定是否使用多行支持，但是 Canvas 可能无法检测到样本中的任何多行单元格。在这种情况下，我们建议您选择**多行检测**选项，以强制 Canvas 检查整个数据集是否有多行单元格。

1. 选择**导入**。

现在您应该拥有新的数据流，可以开始添加转换步骤和分析。