创建数据流

使用 Canva SageMaker s 中的 Data Wrangler 流程或数据流来创建和修改数据准备管道。我们建议您使用 Data Wrangler 处理超过 5 GB 的数据集。

要开始使用，请按照以下步骤将数据导入数据流中。

打开 SageMaker 画布。
在左侧导航栏选择 Data Wrangler。
选择导入并准备。
从下拉菜单中选择表格或映像。
在选择数据来源中，选择数据来源并选择要导入的数据。您最多可以选择 30 个文件或一个文件夹。如果您已将数据集导入 Canvas，请选择 Canvas 数据集作为来源。否则，请连接到 Amazon S3 或 Snowflake 等数据来源并浏览数据。有关连接到数据来源或导入数据的信息，请参阅以下页面：
- 导入数据
- 连接到数据来源
选择要导入的数据后，选择下一步。
（可选）在导入表格数据集时，如需设置导入设置部分，请展开高级下拉菜单。您可以为数据流导入指定以下高级设置：
- 采样方法：选择要使用的采样方法和样本量。有关如何更改样本的更多信息，请参阅第编辑数据流采样配置节。
- 文件编码 (CSV)：选择数据集文件的编码。默认为 UTF-8。
- 跳过第一行：如果您在数据集的开头有多余的行，请输入您想跳过的导入行数。
- 分隔符：选择用于分隔数据中每项的分隔符。您还可以指定自定义分隔符。
- 多行检测：如果您希望 Canvas 手动解析整个数据集的多行单元格，请选择此选项。Canvas 通过采集数据样本来确定是否使用多行支持，但是 Canvas 可能无法检测到样本中的任何多行单元格。在这种情况下，我们建议您选择多行检测选项，以强制 Canvas 检查整个数据集是否有多行单元格。
选择 Import（导入）。

现在您应该拥有新的数据流，可以开始添加转换步骤和分析。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

数据准备

数据流 UI 的工作原理