转换为列式格式
如果您将数据转换为开源列式格式(如 Apache Parquet
将 JSON 或 CSV 等源数据轻松转换为列式格式的选项包括使用 CREATE TABLE AS 查询或在 Amazon Glue 中运行任务。
-
您可以使用
CREATE TABLE AS
(CTAS) 查询一步将数据转换为 Parquet 或 ORC。有关示例,请参阅 CTAS 查询的示例 页面上的示例:将查询结果写入不同的格式。 -
有关运行 Amazon Glue 任务以将 CSV 数据转换为 Parquet 的信息,请参阅 Amazon 大数据博客文章 使用 Amazon Glue 和 Simple Storage Service (Amazon S3) 构建数据湖基础
中的“将数据从 CSV 转换为 Parquet 格式”。Amazon Glue 支持使用相同的技术将 CSV 数据转换为 ORC,或将 JSON 数据转换为 Parquet 或 ORC。