本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
高级数据类型过滤器
根据高级数据类型检测筛选当前源列。例如,给定一列标识 DataBrew 为包含邮政编码,则此转换可以根据时区筛选该列。您可以提取的详细信息取决于检测到的模式,如下面的注释中所述。
参数
-
sourceColumn
— 字符串源列的名称。 -
pattern
— 要提取的图案。 -
advancedDataType
— 可以是 “电话”、“邮政编码”、“日期时间”、“州”、“信用卡”、“URL”、“电子邮件”、“SSN” 或 “性别” 之一。 -
filter values
— 用户要根据其筛选列的字符串值列表。 -
strategy
— KEEP_ROWS 或 DISCARD_ROWS 或 CLEAR_FILTERS 或 CLEAR_OTH -
clearWithEmpty
— 布尔值true
或false
,使用empty
代替来清除行null
。
注意事项
如果 advancedDataType 是 “电话”,则模式可以是 “区域代码”、“时区” 或 “国家/地区代码”。
如果 advancedDataType 是邮政编码,则模式可以是时区、国家、州、城市、类型或地区。
如果 advancedDataType 是 “日期时间”,则模式可以是 “日”、“月”、“月”、“月”、“周”、“季度” 或 “年”。
如果 advancedDataType 是 “状态”,则模式可以是 TIME_ZONE。
如果 advancedDataType 是信用卡,则模式可以是 LENGTH 或 NETWORK。
如果 advancedDataType 是 URL,则模式可以是协议、TLD 或域。
例 示例
{ "RecipeAction": { "Operation": "ADVANCED_DATATYPE_FILTER", "Parameters": { "pattern": "AREA_CODE", "sourceColumn": "phoneColumn", "advancedDataType": "Phone", "filterValues": ['Ohio'], "strategy": "KEEP_ROWS" } } }