

# 使用 Amazon Glue 控制台创建分类器
<a name="console-classifiers"></a>

分类器确定您的数据架构。您可以编写一个自定义分类器并从 Amazon Glue 指向该分类器。

## 创建分类器
<a name="add-classifier-console"></a>

要在 Amazon Glue 控制台中添加分类器，请选择 **Add classifier (添加分类器)**。在定义分类器时，您需要提供以下项目的值：
+ **分类器名称** – 为您的分类器提供唯一名称。
+ **分类器类型** – 由此分类器推断的表的分类类型。
+ **上次更新** – 上次更新此分类器的时间。

**分类器名称**  
为您的分类器提供唯一名称。

**分类器类型**  
选择要创建的分类器的类型。

根据您选择的分类器类型，为分类器配置以下属性：

------
#### [ Grok ]
+ **分类。**

  描述分类的数据的格式或类型或提供自定义标签。
+ **Grok 模式** 

  此模式用于将您的数据解析为结构化架构。Grok 模式由描述您数据存储格式的命名模式组成。您使用 Amazon Glue 提供的已命名内置模式和您编写且包含在 **Custom patterns (自定义模式)** 字段中的自定义模式编写此 grok 模式。尽管 grok 调试程序结果可能不完全匹配 Amazon Glue 中的结果，我们仍建议您使用一些示例数据与 grok 调试程序来尝试您的模式。您可以在 Web 上查找 grok 调试程序。Amazon Glue 提供的已命名的内置模式通常可与 Web 上提供的 grok 模式兼容。

  通过以迭代方式添加已命名的模式来构建您的 grok 模式，并在调试程序中检查您的结果。此活动将使您确信，当 Amazon Glue 爬网程序运行 grok 模式时会解析您的数据。
+ **自定义模式** 

  对于 grok 分类器，这些是您编写的 **Grok pattern** (Grok 模式) 的可选构建块。当内置模式无法解析您的数据时，您可能需要编写自定义模式。这些自定义模式在此字段中定义并在 **Grok pattern** (Grok 模式) 字段中引用。每个自定义模式在单独的行上定义。和内置模式一样，它包含一个已命名的模式定义，该定义使用[正则表达式 (regex)](http://en.wikipedia.org/wiki/Regular_expression) 语法。

  例如，以下是具有名称 `MESSAGEPREFIX` 后跟要应用于您的数据以确定其是否符合该模式的正则表达式定义。

  ```
  MESSAGEPREFIX .*-.*-.*-.*-.*
  ```

------
#### [ XML ]
+ **行标签** 

  对于 XML 分类器，这是定义 XML 文档中的表行的 XML 标签的名称。键入名称，不带尖括号 `< >`。名称必须符合标签的 XML 规则。

  有关更多信息，请参阅 [编写 XML 自定义分类器](custom-classifier.md#custom-classifier-xml)。

------
#### [ JSON ]
+ **JSON 路径** 

  对于 JSON 分类器，这是定义正在创建的表的行的对象、数组或值的 JSON 路径。使用 Amazon Glue 支持的运算符在点或括号 JSON 语法中键入名称。

  有关更多信息，请参阅[编写 JSON 自定义分类器](custom-classifier.md#custom-classifier-json)中的运算符列表。

------
#### [ CSV ]
+ **列分隔符** 

  单个字符或符号，表示分隔行中每个列条目的内容。从列表中选择分隔符，或选择 `Other` 来输入自定义分隔符。
+ **引用符号** 

  单个字符或符号，表示将内容组合为单个列值的内容。必须与列分隔符不同。从列表中选择引用符号，或选择 `Other` 来输入自定义引用字符。
+ **列标题** 

  指示有关应如何在 CSV 文件中检测列标题的行为。您可以选择 `Has headings`、`No headings` 或 `Detect headings`。如果您的自定义 CSV 文件包含列标题，请输入列标题的逗号分隔列表。
+ **允许具有单列的文件** 

  要被分类为 CSV，数据必须至少有两列和两行数据。使用此选项处理仅包含一列的文件。
+ **在标识列值之前去除空格** 

  此选项指定是否在标识列值类型之前去除值。
+  **自定义数据类型** 

   （可选）- 在逗号分隔列表中输入自定义数据类型。受支持的数据类型有：“BINARY”、“BOOLEAN”、“DATE”、“DECIMAL”、“DOUBLE”、“FLOAT”、“INT”、“LONG”、“SHORT”、“STRING”、“TIMESTAMP”。
+  **CSV Serde** 

   （可选）- 设置用于在分类器中处理 CSV 的 SerDe，该分类器将应用于 Data Catalog。可以选择 `Open CSV SerDe`、`Lazy Simple SerDe` 或 `None`。当您想让爬网程序执行检测时，可以指定 `None` 值。

------

有关更多信息，请参阅 [为不同的数据格式编写自定义分类器](custom-classifier.md)。

## 查看分类器
<a name="view-classifiers-console"></a>

要查看您创建的所有分类器的列表，请点击 [https://console.aws.amazon.com/glue/](https://console.amazonaws.cn/glue/) 打开 Amazon Glue 控制台，然后选择 **Classifiers (分类器)** 选项卡。

列表显示了有关每个分类器的以下属性：
+ **分类器** – 分类器名称。创建分类器时，您必须为其提供名称。
+ **分类** – 由此分类器推断的表的分类类型。
+ **上次更新** – 上次更新此分类器的时间。

## 管理分类器
<a name="manage-classifiers-console"></a>

从 ** 控制台中的 **ClassifiersAmazon Glue (分类器) 列表中，您可以添加、编辑和删除分类器。要查看分类器的详细信息，请在列表中选择分类器名称。详细信息包括您创建分类器时定义的信息。