本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
FillMissingValues 类
FillMissingValues
类使用机器学习方法(如线性回归和随机森林)填充指定 DynamicFrame
列中的 null 值和空字符串,以预测缺失值。ETL 任务使用输入数据集中的值来训练机器学习模型,然后该模型预测缺失的值应该是什么。
提示
如果您使用增量数据集,则每个增量集都会用作机器学习模型的训练数据,因此结果可能不是如此准确。
导入:
from awsglueml.transforms import FillMissingValues
方法
apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)
填充指定列中的动态帧缺失值,并在新列中返回包含估计值的新帧。对于没有缺失值的行,指定列的值将复制到新列。
frame
– 要填充缺失值的DynamicFrame
。必需。missing_values_column
– 包含缺失值(null
值和空字符串)的列。必需。output_column
– 新列的名称,该列将包含缺失值的所有行的估计值。可选;默认值是后缀为"_filled"
的missing_values_column
。transformation_ctx
– 用于标识状态信息的唯一字符串 (可选)。info
– 与转换中的错误关联的字符串 (可选)。stageThreshold
– 在转换出错之前可能在其中发生的最大错误数 (可选;默认值为零)。totalThreshold
– 在处理出错之前可能全面发生的最大错误数 (可选;默认值为零)。
返回带附加列的新 DynamicFrame
,该列包含带缺失值的行的估计值和其他行的当前值。