FileSize - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

FileSize

FileSize 规则类型允许您确保文件符合特定的文件大小标准。这在以下用例中非常有用:

  1. 确保创建器不会发送空文件或小得多的文件进行处理。

  2. 确保您的目标存储桶中没有可能导致性能的问题较小文件。

FileSize 会收集以下指标:

  1. 合规性:返回符合您设定的规则阈值的文件百分比

  2. 文件计数:已处理的文件数

  3. 最小文件大小(字节)

  4. 最大文件大小(字节)

Dataset.*.FileSize.Compliance: 1.00, Dataset.*.FileCount: 8.00, Dataset.*.MaximumFileSize: 327413121.00, Dataset.*.MinimumFileSize: 204558920.00

这些指标不支持异常检测。

验证文件大小

如果 file.dat 大于 2 MB,则此规则将通过。

FileSize "s3://bucket/file.dat" > 2 MB

支持的单位包括 B(字节)、MB(兆字节)、GB(千兆字节)和 TB(太字节)。

验证文件夹中文件的大小

FileSize "s3://bucket/" > 5 B FileSize "s3://bucket/" < 2 GB

如果 s3://bucket 中有 70% 的文件大小在 2 GB 到 1 TB 之间,则此规则将通过。

FileSize "s3://bucket/" between 2 GB and 1 TB with threshold > 0.7

直接从数据帧推断文件名

您不必总是提供文件路径。例如,当您在 Data Catalog 中编写规则时,可能很难找到目录表使用的文件夹。AmazonGlue 数据质量自动监测功能可以找到用于填充数据帧的特定文件夹或文件。

FileSize < 10 MB with threshold > 0.7

有几个注意事项:

  1. 在 Amazon Glue ETL 中,您必须在 Amazon S3 或 Data Catalog 转换之后立即进行 Evaluate DataQuality 转换。

  2. 此规则在 Amazon Glue 交互式会话中不起作用。