TOKENIZATION - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

TOKENIZATION

将文本拆分为较小的单位或词元,例如单个单词或术语。

参数
  • sourceColumn:现有列的名称。

  • delimiter:在词元化的单词之间显示的自定义分隔符。(默认行为是用空格分隔每个词元。)

  • expandContractions:如果为 ENABLED,请展开缩写词。例如:“don't”变成“do not”。

  • stemmingMode:将文本拆分为较小的单位或词元,例如单个小写单词或术语。有两种词干提取模式可供选择:PORTER | LANCASTER

  • stopWordRemovalMode:删除像 a、an、the 等常用词。

  • customStopWords:对于 StopWordRemovalMode,可用于指定自定义停用词列表。

  • targetColumn:要包含结果的列的名称。

例 示例

{ "Action": { "Operation": "TOKENIZATION", "Parameters": { "customStopWords": "[]", "delimiter": "- ", "expandContractions": "ENABLED", "sourceColumn": "dimensions", "stemmingMode": "PORTER", "stopWordRemovalMode": "DEFAULT", "targetColumn": "dimensions_tokenized" } } }