本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在中以编程方式构建配置文件作业配置Amazon Glue DataBrew
在本部分中,您可以找到配置文件作业过程和函数的说明,您可以通过编程使用。您可以从Amazon Command Line Interface (Amazon CLI) 或使用其中一个Amazon SDK 来使用它们。
在分析作业中,您可以自定义配置来控制 DataBrew 评估数据集的方式。您可以将配置应用于数据集或将其应用于特定的列。您可以在创建配置文件作业时构建配置,然后随时对其进行更新。
型材配置结构包括四个部分:
以下为示例。
{ "ProfileColumns": [ { "Name": "example" }, { "Regex": "example.*" } ], "DatasetStatisticsConfiguration": { "IncludedStatistics": [ "CORRELATION" ], "Overrides": [ { "Statistic": "CORRELATION", "Parameters": { "columnSelectors": "[{\"name\":\"example\"}, {\"regex\":\"example.*\"}]" } } ] }, "ColumnStatisticsConfigurations": [ { "Selectors": [ { "Name": "example" } ], "Statistics": { "IncludedStatistics": [ "CORRELATION", "DUPLICATE_ROWS_COUNT" ], "Overrides": [ { "Statistic": "VALUE_DISTRIBUTION", "Parameters": { "binNumber": "10" } } ] } } ] }
ProfileColumns 部分
在结构ProfileColumns
部分中,设置要在个人资料作业中评估的数据集中的列。 ProfileColumns
是列选择器列表 (Selectors
)。您可以在列选择器中指定列名或正则表达式。下面是一个示例。
"ProfileColumns": [{"Name": "example"}, {"Regex": "example.*"}]
指定后ProfileColumns
,配置文件作业中ProfileColumns
仅包含名称或正则表达式匹配的列。如果分析作业不支持所选列的数据类型,则在作业运行期间 DataBrew 跳过所选列。
如果 ProfileColumns 未定义,配置文件作业将评估所有支持的列。支持的列是包含支持的数据类型的列:ByteType
、ShortType
IntegerType
、LongType
、FloatType
、DoubleType
String
、或Boolean
。
DatasetStatisticsConfiguration 部分
在结构DatasetStatisticsConfiguration
部分中,您可以为列间评估构建配置。配置包括IncludedStatistics
和Overrides
。下面是一个示例。
"DatasetStatisticsConfiguration": { "IncludedStatistics": ["CORRELATION"], "Overrides": [ { "Statistic": "CORRELATION", "Parameters": { "columnSelectors": "[{\"name\":\"example\"}, {\"regex\":\"example.*\"}]" } } ] }
您可以通过向添加评估名称来选择想要的评估IncludedStatistics
。下面是一个示例。
"IncludedStatistics": ["CORRELATION", "DUPLICATE_ROWS_COUNT"]
如果指定IncludedStatistics
,则只有列表中的评估才包含在配置文件作业中。如果IncludedStatistics
未定义,配置文件作业将使用默认设置运行所有受支持的评估。您可以通过向添加 NONE 来排除所有评估IncludedStatistics
。下面是一个示例。
"IncludedStatistics": ["NONE"]
数据集级别的可配置统计数据
在结构DatasetStatisticsConfiguration
部分中,配置文件作业支持下表所示的评估。
统计名称 | 描述 | 支持的数据类型 | 默认状态 | 配置文件结果的属性 | 个人资料结果的类型 |
---|---|---|---|---|---|
重复行数 |
数据集中重复行的数量 |
全部 |
Enable |
duplicateRowsCount |
Int |
相关性 |
两列间的 Pearson 相关系数 |
number |
Enable |
相关性(在每个选定列中) |
对象 |
在中IncludedStatistics
,您可以通过添加替代来覆盖每个评估的默认设置。每个覆盖都包括特定评估的名称和参数映射。
在中DatasetStatisticsConfiguration
,配置文件作业支持CORRELATION
覆盖。此替代从选定列列表中计算两列之间的 Pearson 相关系数。默认设置是选择前 10 个数字列。您可以指定多个列或列选择器列表来覆盖默认设置。
CORRELATION
采用以下参数:
columnNumber
— 数字列的数量。分析作业从数据集中选择前 n 列。此值应大于 1。"ALL"
用于选择所有数字列。columnSelectors:
— 列选择器列表。每个选择器可以具有列名或正则表达式。
下面是一个示例。
{ "Statistic": "CORRELATION", "Parameters": { "columnSelectors": "[{\"name\":\"example\"}, {\"regex\":\"example.*\"}]" } }
ColumnStatisticsConfigurations 部分
在结构ColumnStatisticsConfigurations
部分中,您可以为特定列构建配置。 ColumnStatisticsConfigurations
是ColumnStatisticsConfiguration
设置列表。中ColumnStatisticsConfiguration
,有一个列Selectors
选择器列表,Statistics
用于配置统计信息。下面是一个示例。
{ "Selectors": [{"Name": "example"} ], "Statistics": { "IncludedStatistics": ["CORRELATION", "DUPLICATE_ROWS_COUNT"] "Overrides": [ { "Statistic": "VALUE_DISTRIBUTION", "Parameters": { "binNumber": "10" } } ] } }
Selectors
是列选择器列表。与使用一样ProfileColumns
,您可以在每个列选择器中指定列名或正则表达式。指定后Selectors
,列配置将应用于与中任何列选择器匹配的列Selectors
。否则,配置将应用于所有支持的列。
在中Statistics
,您可以覆盖所选列的设置。和一样DatasetStatisticsConfiguration
,Statistics
有IncludedStatistics
和Overrides
。
要选择所需的评估,请将评估名称添加到IncludedStatistics
。
"IncludedStatistics": ["CORRELATION", "DUPLICATE_ROWS_COUNT"]
如果指定IncludedStatistics
,则只有列表中的评估才包含在配置文件作业中。否则,分析作业将使用默认设置运行所有支持的评估。
您可以通过添加NONE
到,排除所有评估IncludedStatistics
。
"IncludedStatistics": ["NONE"]
在某些情况下,可能有多个不同的配置IncludedStatistics
,您可以将其应用于同一列。ColumnStatisticsConfigurations
在这些情况下,配置文件作业会选取最后一个配置ColumnStatisticsConfigurations
并将其应用IncludedStatistics
于所选列。新的配置会覆盖旧的配置。
列级别的可配置统计数据
在中ColumnStatisticsConfigurations
,配置文件作业支持下表所示的评估。
此表number
中支持的数据类型表示该属性的数据类型为以下类型之一:ByteType
ShortType
、IntegerType
、LongType
FloatType
、或DoubleType
。
统计名称 | 描述 | 支持的数据类型 | 默认状态 | 配置文件结果的属性 | 个人资料结果的类型 |
---|---|---|---|---|---|
– |
列的名称。 |
全部 |
– |
name |
字符串 |
– |
列的数据类型。 |
全部 |
– |
type |
字符串 |
不同的值_计数 |
不同值的数量。非重复值是指至少出现一次的值。 |
数字/布尔值/字符串 |
Enabled |
distinctValuesCount |
Int |
熵 |
熵(信息论)。 |
数字/布尔值/字符串 |
Enabled |
熵 |
Double |
INTER_QUARTILE_RANGE |
范围介于数字的第 25% 到 75% 之间。 |
number |
Enabled |
InterquartileRange |
Double |
峰度 |
列的峰度。 |
number |
Enabled |
峰度 |
Double |
MAX |
列中的最大值。 |
数字/字符串长度 |
Enabled |
最大 |
Int/双精度 |
最大值 |
列中最大值及其计数的列表。 |
number |
Enabled |
最大值 |
List |
MEAN |
列中的平均值。 |
数字/字符串长度 |
Enabled |
意思 |
Double |
MEDIAN |
列中的 Tre 数量。 |
数字/字符串长度 |
Enabled |
median |
Double |
中位数_绝对_偏差 |
每个数据点与数值列中位数之间的绝对差值的中位数。 |
number |
Enabled |
medianAbsoluteDeviation |
Double |
MIN |
列中的最低值。 |
数字/字符串长度 |
Enabled |
min |
Int/双精度 |
最小值 |
列中最小值及其计数的列表。 |
number |
Enabled |
最小值 |
List |
缺失值_计数 |
列中的 False 数量。空字符串和空字符串被视为缺失。 |
全部 |
Enabled |
missingValuesCount |
Int |
MODE |
列中最常出现的值。如果多个值经常出现,则该模式就是其中一个值。 |
数字/字符串长度 |
Enabled |
mode |
Int/双精度 |
最常见的值 |
列中最常用值的列表。 |
数字/布尔值/字符串 |
Enabled |
mostCommonValues |
List |
异常值检测 |
通过 z_score 算法检测列中的异常值。计算异常值的数量,并从检测到的异常值中提取样本列表。 |
数字/字符串长度 |
Enabled |
zScoreOutliers计数、 zScoreOutliers样本 |
Int/List |
百分等级 |
数字列的百分位数值(5%、25%、75%、95%)。 |
number |
Enabled |
百分位数 5、百分位数 25、百分位数 75、百分位数 95 |
Double |
RANGE |
列中的 Valse 范围。 |
number |
Enabled |
range |
Int/双精度 |
偏斜 |
列中的 Tre 数量。 |
number |
Enabled |
偏斜 |
Double |
标准偏差 |
列中值的无偏样本标准差。 |
数字/字符串长度 |
Enabled |
标准差 |
Double |
SUM |
列中的总值。 |
number |
Enabled |
sum |
Int/双精度 |
唯一值_计数 |
唯一值的数量。唯一值意味着该值只出现一次。 |
数字/布尔值/字符串 |
Enabled |
uniqueValuesCount |
Int |
价值分布 |
按范围衡量列中值的分布。 |
数字/字符串长度 |
Enabled |
价值分配 |
List |
VARIANCE |
列中的 False 数量。 |
number |
Enabled |
variance |
Double |
Z_SCORE_分布 |
按范围衡量数据点的 z 分数值的分布。 |
number |
Enabled |
zScoreDistribution |
List |
ZEROS_COUNT |
列中零 (0) 的数量。 |
number |
Enabled |
ZerosCount |
Int |
在中IncludedStatistics
,您可以通过添加替代来覆盖每个评估的默认参数。每个覆盖都包括特定评估的名称和参数映射。
ColumnStatisticsConfigurations 列的参数
在中ColumnStatisticsConfigurations
,配置文件作业支持以下参数。
在某些情况下,可能有多个不同的配置IncludedStatistics
,您可以将其应用于同一列。ColumnStatisticsConfigurations
在这些情况下,配置文件作业会选取最后一个配置ColumnStatisticsConfigurations
并将其应用IncludedStatistics
于所选列。新的配置会覆盖旧的配置。
最大值
列出数值列中的最大值及其计数。默认列表大小为 5。您可以通过为指定值来覆盖列表大小sampleSize
。
设置
sampleSize
— 列表的大小,包括数值列中的最大值数和最大数目。此值应大于 0。"ALL"
用于列出所有值。
示例
{ "Statistic": "MAXIMUM_VALUES", "Parameters": { "sampleSize": "5" } }
最小值
列出数值列中的最小值及其计数。默认列表大小为 5。您可以通过为指定值来覆盖列表大小sampleSize
。
设置
sampleSize
— 列表的大小,包括数值列中的最大值数和最大数目。此值应大于 0。"ALL"
用于列出所有值。
示例
{ "Statistic": "MINIMUM_VALUES", "Parameters": { "sampleSize": "5" } }
最常见的值
列出该列中最常见的值及其计数。默认列表大小为 50。您可以通过为指定值来覆盖列表大小sampleSize
。
设置
sampleSize
— 列表的大小,包括数值列中的最大值数和最大数目。此值应大于 0。"ALL"
用于列出所有值。
示例
{ "Statistic": "MOST_COMMON_VALUES", "Parameters": { "sampleSize": "50" } }
异常值检测
通过 z_Score 算法检测数字列或字符串列(基于字符串长度)中的异常值。
您的个人资料作业会计算异常值的数量,并生成异常值及其 z 分数的样本列表。样本列表按 z 分数的绝对值排序。默认列表大小为 50。
当一个值与平均值的偏差超过标准差阈值时,Z_Score 算法会将该值识别为异常值。默认异常值为 3。
你可以再提供一个阈值,一个温和的阈值,以获取更多信息。您的轻度阈值应小于您的阈值。默认情况下,此功能处于关闭状态。当指定了温和的阈值时,你的个人资料工作会再返回一个计数,zScoreMildOutliersCount
。此外,在这种情况下,zScoreOutliersSample
可以包括轻度阈值异常值样本。
设置
threshold
— 检测异常值时使用的阈值。此值应大于或等于 0。mildThreshold
— 检测异常值时使用的轻度阈值。此值应大于或等于 0 且小于threshold
。sampleSize
— 列中包含异常值的列表的大小。"ALL"
用于列出所有值。
示例
{ "Statistic": "OUTLIER_DETECTION", "Parameters": { "threshold": "5", "mildThreshold": "3.5", "sampleSize": "20" } }
价值分布
按值的范围衡量列中值的分布。配置文件作业按数值范围将数字列或字符串列(基于字符串长度)中的值分组到分箱中,并生成数据桶列表。数据桶是连续的,存储桶的上限是下一个存储桶的下限。
设置
binNumber
— 垃圾箱的数量。此值应大于 0。
示例
{ "Statistic": "VALUE_DISTRIBUTION", "Parameters": { "binNumber": "5" } }
Z_SCORE_分布
测量数值列中 z 分数的分布。配置文件作业按数值范围将值的 z 分数分组为分组,并生成分组列表。数据桶是连续的,存储桶的上限是下一个存储桶的下限。
设置
binNumber
— 垃圾箱的数量。此值应大于 0。
示例
{ "Statistic": "Z_SCORE_DISTRIBUTION", "Parameters": { "binNumber": "5" } }
EntityDetectorConfiguration 配置 PII 的部分
在结构EntityDetectorConfiguration
部分中,您可以配置数据集中要检测为个人身份信息 (PII) 的实体类型, DataBrew 以供配置文件作业使用。
EntityTypes
您可以为配置文件任务配置 DataBrew 要检测为 PII 的实体类型。EntityDetectorConfiguration
未定义,禁用实体检测。可以在您的数据集中检测到以下实体类型:
USA_SSN
EMAIL
USA_ITIN
USA_PASSPORT_NUMBER
PHONE_NUMBER
USA_DRIVING_LICENSE
BANK_ACCOUNT
CREDIT_CARD
IP_ADDRESS
MAC_ADDRESS
USA_DEA_NUMBER
USA_HCPCS_CODE
USA_NATIONAL_PROVIDER_IDENTIFIER
USA_NATIONAL_DRUG_CODE
USA_HEALTH_INSURANCE_CLAIM_NUMBER
USA_MEDICARE_BENEFICIARY_IDENTIFIER
USA_CPT_CODE
PERSON_NAME
DATE
还支持实体类型组,USA_ALL
它包括除PERSON_NAME
和之外的所有上述实体类型DATE
。
的类型EntityTypes
是一个字符串数组。
AllowedStatistics
配置允许在包含检测到的实体的列上运行的统计信息。如果未定义,AllowedStatistics
则不会对包含检测到的实体的列计算统计信息。列级别的可配置统计数据有关AllowedStatistics
参数的有效值列表,请参见。
的类型AllowedStatistics
是一个AllowedStatistics
对象数组。