FillMissingValues 类 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

FillMissingValues 类

FillMissingValues 类使用机器学习方法(如线性回归和随机森林)填充指定 DynamicFrame 列中的 null 值和空字符串,以预测缺失值。ETL 任务使用输入数据集中的值来训练机器学习模型,然后该模型预测缺失的值应该是什么。

提示

如果您使用增量数据集,则每个增量集都会用作机器学习模型的训练数据,因此结果可能不是如此准确。

导入:

from awsglueml.transforms import FillMissingValues

方法

apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

填充指定列中的动态帧缺失值,并在新列中返回包含估计值的新帧。对于没有缺失值的行,指定列的值将复制到新列。

  • frame – 要填充缺失值的 DynamicFrame。必需。

  • missing_values_column – 包含缺失值(null 值和空字符串)的列。必需。

  • output_column – 新列的名称,该列将包含缺失值的所有行的估计值。可选;默认值是后缀为 "_filled"missing_values_column

  • transformation_ctx – 用于标识状态信息的唯一字符串 (可选)。

  • info – 与转换中的错误关联的字符串 (可选)。

  • stageThreshold – 在转换出错之前可能在其中发生的最大错误数 (可选;默认值为零)。

  • totalThreshold – 在处理出错之前可能全面发生的最大错误数 (可选;默认值为零)。

返回带附加列的新 DynamicFrame,该列包含带缺失值的行的估计值和其他行的当前值。