填充缺失值类 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

填充缺失值类

这些区域有:FillMissingValues类在指定的DynamicFrame并使用机器学习方法(如线性回归和随机森林)来预测缺失值。ETL 作业使用输入数据集中的值来训练机器学习模型,然后该模型预测缺失的值应该是什么。

提示

如果使用增量数据集,则每个增量集都会用作机器学习模型的训练数据,因此结果可能不那么准确。

导入:

from awsglueml.transforms import FillMissingValues

Methods

应用 (frame, 缺失 _ 值 _ 列, 输出 _ 列 = "”, transformation_ctx = "”, info = "”, stage Threshold = 0, totalThreshold = 0)

填充指定列中的动态帧缺失值,并在新列中返回一个包含估计值的新帧。对于没有缺失值的行,指定列的值将复制到新列。

  • frameDynamicFrame,以填充缺失的值。必填项。

  • missing_values_column— 包含缺少值的列 (null值和空字符串)。必填项。

  • output_column— 新列的名称,该列将包含值缺失的所有行的估计值。可选;默认值为missing_values_column后缀为"_filled"

  • transformation_ctx – 用于标识状态信息的唯一字符串 (可选)。

  • info – 与转换中的错误关联的字符串 (可选)。

  • stageThreshold – 在转换出错之前可能在其中发生的最大错误数 (可选;默认值为零)。

  • totalThreshold – 在处理出错之前可能全面发生的最大错误数 (可选;默认值为零)。

返回新DynamicFrame添加一列,其中包含缺失值的行的估计和其他行的当前值。