

# 查找并填充数据集中的缺失值


您可以在数据集中使用 *FillMissingValues* 转换，查找数据集中缺少值的记录，并添加包含由输入决定的值的新字段。输入数据集用于训练机器学习（ML）模型，该模型确定缺失值。如果您使用增量数据集，则每个增量集都会用作 ML 模型的训练数据，因此结果可能不是如此准确。

**在任务图中使用 FillMissingValues 转换节点**

1. （可选）打开资源面板，然后选择 **FillMissingValues** 将新转换添加到作业图（如果需要）。

1. 在 **Node properties (节点属性)** 选项卡上，输入任务图中节点的名称。如果尚未选择父节点，请从 **Node parents (父节点)** 列表中选择一个节点，用作转换的输入源。

1. 选择 **Transform (转换)** 选项卡。

1. 对于 **Data field (数据字段)**，从要分析缺失值的源数据中选择列或字段名称。

1. （可选）在 **New field name (新字段名称)** 字段中，输入每条记录所添加字段的名称，该字段将保存所分析字段的估计替换值。如果分析的字段没有缺失值，则分析字段中的值将复制到新字段。

   如果没有为新字段指定名称，默认名称是已分析列的名称，已附加 `_filled`。例如，如果您为 **Data field (数据字段)** 输入 **Age**，没有为 **New field name (新字段名称)** 指定值，则名为 **Age\$1filled** 的新字段会添加到每个记录。

1. （可选）配置转换节点属性后，您可以选择节点详细信息面板中的 **Output schema (输出架构)** 选项卡，查看数据的修改架构。当您首次为任务中的任何节点选择此选项卡时，系统会提示您提供 IAM 角色以访问数据。如果您尚未在 **Job details (任务详细信息)** 选项卡上指定 IAM 角色，系统会提示您在此处输入 IAM 角色。

1. （可选）配置节点属性和转换属性后，您可以选择节点详细信息窗格中的 **Data preview (数据预览)** 选项卡来预览已修改的数据集。当您首次为任务中的任何节点选择此选项卡时，系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关费用，并且一旦您提供 IAM 角色，则会立即开始计费。