启用记录格式转换 - Amazon Data Firehose
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用记录格式转换

如果您启用记录格式转换,则无法将亚马逊数据 Firehose 目标设置为亚马逊 OpenSearch 服务、亚马逊 Redshift 或 Splunk。启用格式转换后,Amazon S3 就是您可用于 Firehose 流的唯一目的地。下一节将介绍如何从控制台和 Firehose API 操作启用记录格式转换。有关如何使用设置记录格式转换的示例 Amazon CloudFormation,请参阅Amazon::DataFirehose:: DeliveryStream

从控制台前期用记录格式转换

您可以在创建或更新 Firehose 流时在控制台上启用数据格式转换。启用数据格式转换后,Amazon S3 就是您可为 Firehose 流进行配置的唯一目的地。此外,启用格式转换时,系统将禁用 Amazon S3 压缩。但是,Snappy 压缩会作为自动转换过程的一部分自动进行。在这种情况下,Amazon Data Firehose 使用的 Snappy 的构造格式与 Hadoop 兼容。这意味着,您可以使用 Snappy 压缩的结果并在 Athena 中对这些数据运行查询。有关 Hadoop 所依赖的 Snappy 取景格式,请参阅.java。BlockCompressorStream

要对数据 Firehose 流启用数据格式转换
  1. 登录并打开 Amazon Data Firehose 控制台,网址为。 Amazon Web Services Management Consolehttps://console.aws.amazon.com/firehose/

  2. 选择要更新的 Firehose 流,或按照 教程:从控制台创建 Firehose 流 中的步骤创建新的 Firehose 流。

  3. 转换记录格式下,将记录格式转换设置为已启用

  4. 选择所需的输出格式。有关这两个选项的更多信息,请参阅 Apache ParquetApache ORC

  5. 选择一个 Amazon Glue 表,为您的源记录指定架构。设置区域、数据库、表和表版本。

管理 Firehose API 的记录格式转换

如果你想让 Amazon Data Firehose 将你的输入数据格式从 JSON 转换为 Parquet 或 ORC,请在 extendedS3 或 Extended DestinationConfiguration S DataFormatConversionConfiguration3 中指定可选元素。DestinationUpdate如果您指定 DataFormatConversionConfiguration,则适用以下限制。