

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# TOKENIZATION
<a name="recipe-actions.TOKENIZATION"></a>

将文本拆分为较小的单位或词元，例如单个单词或术语。

**参数**
+ `sourceColumn`：现有列的名称。
+ `delimiter`：在词元化的单词之间显示的自定义分隔符。（默认行为是用空格分隔每个词元。）
+ `expandContractions`：如果为 `ENABLED`，请展开缩写词。例如：“don't”变成“do not”。
+ `stemmingMode`：将文本拆分为较小的单位或词元，例如单个小写单词或术语。有两种词干提取模式可供选择：`PORTER` \$1 `LANCASTER`。
+ `stopWordRemovalMode`：删除像 a、an、the 等常用词。
+ `customStopWords`：对于 `StopWordRemovalMode`，可用于指定自定义停用词列表。
+ `targetColumn`：要包含结果的列的名称。

**Example 示例**  
  

```
{
    "Action": {
        "Operation": "TOKENIZATION",
        "Parameters": {
            "customStopWords": "[]",
            "delimiter": "- ",
            "expandContractions": "ENABLED",
            "sourceColumn": "dimensions",
            "stemmingMode": "PORTER",
            "stopWordRemovalMode": "DEFAULT",
            "targetColumn": "dimensions_tokenized"
        }
    }

}
```