TOKENIZATION

将文本拆分为较小的单位或词元，例如单个单词或术语。

参数

sourceColumn：现有列的名称。
delimiter：在词元化的单词之间显示的自定义分隔符。（默认行为是用空格分隔每个词元。）
expandContractions：如果为 ENABLED，请展开缩写词。例如：“don't”变成“do not”。
stemmingMode：将文本拆分为较小的单位或词元，例如单个小写单词或术语。有两种词干提取模式可供选择：PORTER | LANCASTER。
stopWordRemovalMode：删除像 a、an、the 等常用词。
customStopWords：对于 StopWordRemovalMode，可用于指定自定义停用词列表。
targetColumn：要包含结果的列的名称。

例示例


{
    "Action": {
        "Operation": "TOKENIZATION",
        "Parameters": {
            "customStopWords": "[]",
            "delimiter": "- ",
            "expandContractions": "ENABLED",
            "sourceColumn": "dimensions",
            "stemmingMode": "PORTER",
            "stopWordRemovalMode": "DEFAULT",
            "targetColumn": "dimensions_tokenized"
        }
    }

}

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

SKEWNESS

数学函数