代币化 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

代币化

将文本拆分成较小的单位或标记,例如单个单词或术语。

参数
  • sourceColumn— 现有列的名称。

  • delimiter— 在标记化单词之间出现的自定义分隔符。(默认行为是用空格分隔每个标记。)

  • expandContractions— 如果ENABLED,扩展缩写词。例如:“不要” 变成 “不要”。

  • stemmingMode— 将文本拆分成较小的单位或标记,例如单个小写单词或术语。有两种词干模式可用:PORTER|LANCASTER

  • stopWordRemovalMode— 移除常用词,如 a、an、the 等。

  • customStopWords— 对于StopWordRemovalMode,允许您指定停用词的自定义列表。

  • targetColumn— 包含结果的列的名称。

例 示例

{ "Action": { "Operation": "TOKENIZATION", "Parameters": { "customStopWords": "[]", "delimiter": "- ", "expandContractions": "ENABLED", "sourceColumn": "dimensions", "stemmingMode": "PORTER", "stopWordRemovalMode": "DEFAULT", "targetColumn": "dimensions_tokenized" } } }