标记重复行 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

标记重复行

返回一个新列,每行都有指定值,用于指示该行是否与数据集中的前一行完全匹配。找到匹配项后,它们会被标记为重复项。第一次出现不会被标记,因为它与前面的行不匹配。

参数
  • trueString – 如果该行与前面的行匹配,则插入该值。

  • falseString – 如果行是唯一的,则插入该值。

  • targetColumn – 插入到数据集中的新列的名称。

例 示例

{ "RecipeAction": { "Operation": "FLAG_DUPLICATE_ROWS", "Parameters": { "trueString": "TRUE", "falseString": "FALSE", "targetColumn": "Flag" } } }