

# Amazon Glue 的文档历史记录
<a name="doc-history"></a>

| 变更 | 说明 | 日期 | 
| --- |--- |--- |
| [Amazon Glue for Ray 不再向新客户开放。](#doc-history) | Amazon Glue for Ray 不再向新客户开放。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [Amazon Glue for Ray 终止支持](https://docs.amazonaws.cn/glue/latest/dg/awsglue-ray-jobs-availability-change.html)。 | 2026 年 4 月 30 日 | 
| [自 2026 年 4 月 30 日起，Amazon Glue for Ray 将不再向新客户开放。](#doc-history) | 自 2026 年 4 月 30 日起，Amazon Glue for Ray 将不再向新客户开放。要使用 Amazon Glue for Ray，请在该日期之前注册。现有客户可以继续正常使用该服务。有关更多信息，请参阅 [Amazon Glue for Ray 终止支持](https://docs.amazonaws.cn/glue/latest/dg/awsglue-ray-jobs-availability-change.html)。 | March 31, 2026 | 
| [支持 Amazon Glue 版本 5.1](#doc-history) | 添加了有关 Amazon Glue 版本 5.1 的支持的信息。功能包括 Apache Spark 更新至 3.5.6、开放表格式更新、Iceberg 实体化视图、Iceberg 格式版本 3、Hudi 全表访问读写、Hive、Iceberg 和 Delta Lake 表上的 Spark 原生精细访问控制 DDL/DML 等。有关更多信息，请参阅 [Amazon Glue 发布说明](https://docs.amazonaws.cn/glue/latest/dg/release-notes.html)和 [Migrating Amazon Glue jobs to Amazon Glue version 5.1](https://docs.amazonaws.cn/glue/latest/dg/migrating-version-51.html)。 | 2025 年 11 月 26 日 | 
| [Amazon Glue 数据质量自动监测功能现在支持规则标注，用于增强报告功能](#doc-history) | Amazon Glue 数据质量自动监测功能现在支持规则标注，使您可以更有效地组织和分析数据质量结果。可以按特定标签查询结果，进而识别特定类别中的失败规则，按团队或域统计规则结果，并为不同的利益相关者创建有针对性的报告。有关更多信息，请参阅[标签](https://docs.amazonaws.cn/glue/latest/dg/dqdl.html#dqdl-labels)。 | 2025 年 11 月 21 日 | 
| [Amazon Glue 数据质量自动监测功能现在支持预处理查询](#doc-history) | Amazon Glue 数据质量自动监测功能现在支持 DQDL 中的常量，允许您定义常量值并在整个脚本中引用这些常量。这有助于防止在处理大型 SQL 语句时出现与查询大小限制相关的问题。有关更多信息，请参阅[常量](https://docs.amazonaws.cn/glue/latest/dg/dqdl.html#dqdl-constants)。 | 2025 年 11 月 21 日 | 
| [支持新的 Worker 类型 G.12X、G.16X 和内存优化型 R Worker 类型](#doc-history) | 增加了对 Amazon Glue 作业的新 Worker 类型 G.12X、G.16X 以及内存优化型 R.1X、R.2X、R.4X、R.8X Worker 类型的支持。这些新的 Worker 类型为不同的工作负载要求提供了额外的计算和内存选项。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2025 年 1 月 30 日 | 
| [支持另外 14 个适用于 Amazon Glue 的新 SaaS 原生连接器](#doc-history) | Amazon Glue 中又添加了 14 个 SaaS 原生连接器。有关更多信息，请参阅[添加 Amazon Glue 连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)。 | 2025 年 1 月 30 日 | 
| [支持另外 16 个适用于 Amazon Glue 的新 SaaS 原生连接器](#doc-history) | Amazon Glue 中又添加了另外 16 个 SaaS 原生连接器。有关更多信息，请参阅[添加 Amazon Glue 连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)。 | 2024 年 12 月 17 日 | 
| [自动生成列统计数据](#doc-history) | Amazon Glue 数据质量现在支持 Amazon SageMaker AI LakeHouse 表和 Amazon Lake Formation 管理的数据目录和 ETL 中的 Iceberg、Delta 及 HUDI 表。有关更多信息，请参阅 [Amazon Glue 数据质量](https://docs.amazonaws.cn/glue/latest/dg/glue-data-quality.html)。 | 2024 年 12 月 6 日 | 
| [支持零 ETL 集成](#doc-history) | 零 ETL 是一组由 Amazon 完全托管的集成，可最大限度地减少构建 ETL 数据管道的需求。有关更多信息，请参阅 [Zero-ETL integrations](https://docs.amazonaws.cn/glue/latest/dg/zero-etl-using.html)。 | 2024 年 12 月 3 日 | 
| [支持可重复使用的连接](#doc-history) | 新的 Amazon Glue 连接架构提供了一种统一的方式来跨 Amazon 服务和应用程序（例如 Amazon Glue、Amazon Athena 和 Amazon SageMaker Unified Studio）管理数据连接。有关更多信息，请参阅[连接到数据](https://docs.amazonaws.cn/glue/latest/dg/glue-connections.html)。 | 2024 年 12 月 3 日 | 
| [支持 Amazon Glue 版本 5.0。](#doc-history) | 添加了有关 Amazon Glue 版本 5.0 的支持的信息。功能包括 Apache Spark 更新至 3.52、Java 更新至 17、开放表格式更新、Spark 原生精细访问控制、Sagemaker Lakehouse 和数据仓库抽象集成、Sagemaker Unified Studio 中的支持等等。有关更多信息，请参阅 [Amazon Glue 发布说明](https://docs.amazonaws.cn/glue/latest/dg/release-notes.html)和 [Migrating Amazon Glue jobs to Amazon Glue version 5.0](https://docs.amazonaws.cn/glue/latest/dg/migrating-version-50.html)。 | 2024 年 12 月 3 日 | 
| [使用 Amazon Glue Iceberg REST 端点连接到 Amazon Glue Data Catalog](#doc-history) | Amazon Glue 的 Iceberg REST 端点支持 Apache Iceberg REST 规范中指定的 API 操作。使用 Iceberg REST 客户端，您可以将在分析引擎上运行的应用程序连接到 Data Catalog 中托管的 REST 目录。有关更多信息，请参阅[访问 Data Catalog](https://docs.amazonaws.cn/glue/latest/dg/access_catalog.html)。 | 2024 年 12 月 3 日 | 
| [自动生成列统计数据](#doc-history) | 在 Amazon Glue Data Catalog 中自动生成新表的列统计数据。有关更多信息，请参阅 [Automatic column statistics generation](https://docs.amazonaws.cn/glue/latest/dg/auto-column-stats-generation.html)。 | 2024 年 12 月 3 日 | 
| [支持 Amazon Glue 中 Apache Spark 的生成式人工智能升级](#doc-history) | Amazon Glue 中的 Spark 升级功能使数据工程师和开发者能够使用生成式人工智能将其现有的 Amazon Glue Spark 作业升级和迁移到最新的 Spark 版本。有关更多信息，请参阅[使用人工智能升级分析](https://docs.amazonaws.cn/glue/latest/dg/upgrade-analysis.html)。 | 2024 年 11 月 22 日 | 
| [支持 Amazon Glue 中 Apache Spark 的生成式人工智能故障排除](#doc-history) | Amazon Glue 中 Apache Spark 作业的生成式人工智能故障排除可帮助数据工程师和科学家轻松诊断和修复其 Spark 应用程序中的问题。有关更多信息，请参阅[使用人工智能对 Spark 作业进行故障排除](https://docs.amazonaws.cn/glue/latest/dg/troubleshoot-spark.html)。 | 2024 年 11 月 22 日 | 
| [支持 Iceberg 优化器访问 VPC 中的 Amazon S3 存储桶](#doc-history) | Amazon Glue Data Catalog 支持 Iceberg 表优化器使用 Amazon Glue 网络连接从特定的虚拟私有云（VPC）访问 Amazon S3 存储桶。有关更多信息，请参阅[优化 Iceberg 表](https://docs.amazonaws.cn/glue/latest/dg/table-optimizers.html)。 | 2024 年 11 月 20 日 | 
| [支持另外 9 个适用于 Amazon Glue 的新 SaaS 原生连接器](#doc-history) | Amazon Glue 中又添加了 9 个 SaaS 原生连接器。有关更多信息，请参阅[添加 Amazon Glue 连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)。 | 2024 年 11 月 19 日 | 
| [支持 10 个适用于 Amazon Glue 的新 SaaS 原生连接器](#doc-history) | Amazon Glue 中添加了 10 个 SaaS 原生连接器。有关更多信息，请参阅[添加 Amazon Glue 连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)。 | 2024 年 11 月 15 日 | 
| [支持 Amazon Glue ETL 作业的作业运行排队](#doc-history) | 当作业由于服务配额的原因而无法立即运行时，您可以打开作业运行排队以便稍后运行作业。有关更多信息，请参阅[在 Amazon Glue 中为 Spark 作业配置作业属性](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2024 年 9 月 3 日 | 
| [更新了策略更改](#doc-history) | 记录了对 **AwsGlueSessionUserRestrictedNotebookPolicy** 和 **AwsGlueSessionUserRestrictedNotebookServiceRole** 策略的更改，这些更改对于支持将 tag-on-create 用于具有所有者标签键的会话是必需的。有关更多信息，请参阅 [Amazon Glue 对 Amazon 托管式策略的更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol-updates.html)。 | 2024 年 8 月 30 日 | 
| [异常检测和动态规则现已正式发布](#doc-history) |  Amazon Glue 数据质量自动监测功能利用机器学习算法，从过去的趋势中学习，然后预测未来值以检测异常。动态规则允许您提供动态阈值。有关更多信息，请参阅 [Optimizing query performance for Iceberg tables](https://docs.amazonaws.cn/glue/latest/dg/iceberg-column-statistics.html)。 | 2024 年 8 月 7 日 | 
| [更新了策略更改](#doc-history) | 记录了对 **AwsGlueSessionUserRestrictedPolicy** 和 **AwsGlueSessionUserRestrictedServiceRole** 策略的更改，这些更改对于支持将 tag-on-create 用于具有所有者标签键的会话是必需的。有关更多信息，请参阅 [Amazon Glue 对 Amazon 托管式策略的更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol-updates.html)。 | 2024 年 8 月 5 日 | 
| [为 Iceberg 表生成列统计数据的功能现已正式发布](#doc-history) |  Amazon Glue 支持计算和更新 Iceberg 表中每列的不重复值（NDV）数量。有关更多信息，请参阅 [Amazon Glue 数据质量自动监测功能中的异常检测](https://docs.amazonaws.cn/glue/latest/dg/data-quality-anomaly-detection.html)和[动态规则](https://docs.amazonaws.cn/glue/latest/dg/dqdl.html#dqdl-dynamic-rules)。 | 2024 年 7 月 9 日 | 
| [对 Amazon Glue 使用情况配置文件的支持](#doc-history) | 管理员可为账户中不同类别的用户（例如开发人员、测试人员和产品团队）创建 Amazon Glue 使用情况配置文件。这种灵活性使管理员能够对每类用户应用不同的用量和成本控制。有关更多信息，请参阅 [Setting up Amazon Glue usage profiles](https://docs.amazonaws.cn/glue/latest/dg/start-usage-profiles.html)。 | 2024 年 6 月 18 日 | 
| [对适用于 Amazon Glue for Spark 的 Salesforce 连接器的支持](#doc-history) | 添加了有关新的 Amazon Glue Salesforce 连接器的信息。您可以利用该功能在 Amazon Glue 4.0 及更高版本中使用 Amazon Glue for Spark 从 Salesforce 中读取数据和向其中写入数据。有关更多信息，请参阅 [Connecting to Salesforce](https://docs.amazonaws.cn/glue/latest/dg/connecting-to-data-salesforce.html)。 | 2024 年 5 月 22 日 | 
| [Amazon Glue 中的 Amazon Q 数据集成（GA）](#doc-history) | Amazon Glue 中的 Amazon Q 数据集成是 Amazon Glue 的一项新的生成式人工智能功能，它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以请求 Q 来创作作业、解决问题并回答有关 Amazon Glue 和数据集成的问题。有关更多信息，请参阅 [Amazon Glue 中的 Amazon Q 数据集成](https://docs.amazonaws.cn/glue/latest/dg/q.html)。此功能包括对 `AwsGlueSessionUserRestrictedPolicy`、`AwsGlueSessionUserRestrictedNotebookServiceRole` 和 `AwsGlueSessionUserRestrictedServiceRole` Amazon 托管策略的更新。有关更多信息，请参阅[对 Amazon 托管策略的 Amazon Glue 更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2024 年 4 月 30 日 | 
| [Amazon Glue 中的 Amazon Q 数据集成（预览版）](#doc-history) | Amazon Glue 中的 Amazon Q 数据集成是 Amazon Glue 的一项新的生成式人工智能功能，它使数据工程师和 ETL 开发人员能够使用自然语言构建数据集成作业。工程师和开发人员可以请求 Q 来创作作业、解决问题并回答有关 Amazon Glue 和数据集成的问题。有关更多信息，请参阅 [Amazon Glue 中的 Amazon Q 数据集成](https://docs.amazonaws.cn/glue/latest/dg/q.html)。此功能包括对 `AwsGlueSessionUserRestrictedNotebookPolicy` Amazon 托管策略的更新。有关更多信息，请参阅[对 Amazon 托管策略的 Amazon Glue 更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2024 年 1 月 30 日 | 
| [Amazon Glue 流式处理文档更新](#doc-history) | 增加了一个新的章节，包含了有关 Amazon Glue 流式处理的新内容和调整后内容。这些内容介绍了流式处理如何与 Amazon Glue 配合使用、实时数据处理的特征以及如何监控流式处理作业。有关更多信息，请参阅 [Amazon Glue 流式处理](https://docs.amazonaws.cn/glue/latest/dg/streaming-chapter.html)。 | 2023 年 12 月 27 日 | 
| [支持使用精细敏感数据检测](#doc-history) |  借助检测敏感数据转换功能，可以检测、遮蔽或移除您定义的或由 Amazon Glue 预定义的实体。您还可以借助精细操作对每个实体应用特定的操作。有关更多信息，请参阅[使用精细敏感数据检测](https://docs.amazonaws.cn/glue/latest/dg/sensitive-data-fine-grained-actions.html)。 | 2023 年 11 月 26 日 | 
| [支持使用 Amazon Glue 可观测性指标监测作业](#doc-history) |  使用 Amazon Glue 可观测性指标可深入了解 Amazon Glue 内部发生的情况，以便 Apache Spark 作业可以改进对问题的分类和分析。有关更多信息，请参阅[使用 Amazon Glue 可观测性指标进行监控](https://docs.amazonaws.cn/glue/latest/dg/monitor-observability.html)。 | 2023 年 11 月 26 日 | 
| [支持 Amazon Glue 数据质量自动监测功能中的异常检测](#doc-history) |  Amazon Glue 数据质量异常检测将机器学习（ML）算法应用于一段时间内的数据统计信息，以检测难以通过规则检测到的异常模式，和隐藏的数据质量问题。有关更多信息，请参阅 [Amazon Glue 数据质量自动监测功能中的异常检测](https://docs.amazonaws.cn/glue/latest/dg/data-quality-anomaly-detection.html)。 | 2023 年 11 月 26 日 | 
| [更新为默认的 Spark 用户界面日志记录行为](#doc-history) | 生成 Spark UI 日志的 Spark 作业现在将使用不同的文件名模式进行写入，以支持 Amazon Glue 控制台中的 Spark UI。这不会改变 CloudWatch 日志行为。您可以通过更新任务配置恢复原来的行为。有关更多信息，请参阅[使用 Apache Spark Web UI 监控作业](https://docs.amazonaws.cn/glue/latest/dg/monitor-spark-ui.html)。 | 2023 年 11 月 17 日 | 
| [支持 Amazon Glue for Spark 中的新数据源](#doc-history) | Amazon Glue 内现在原生支持与 Amazon OpenSearch Service、Azure SQL、Azure Cosmos for NoSQL、SAP HANA Teradata Vantage 和 Vertica 的连接。此外，现在可以在 Amazon Glue Studio 可视化编辑器中使用与这些数据来源以及 MongoDB 的连接。有关更多信息，请参阅 [Amazon Glue for Spark 中的 ETL 的连接类型和选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)了解关于 Amazon Glue for Spark 支持的相关信息；请参阅[添加 Amazon Glue 连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)了解在 Amazon Glue Studio 可视化编辑器中使用的相关信息。 | 2023 年 11 月 17 日 | 
| [支持生成列统计信息](#doc-history) |  无需设置其他数据管道，即可为 Parquet、ORC、JSON、ION、CSV 和 XML 等数据格式的 Amazon Glue Data Catalog 表计算列级别的统计数据。有关更多信息，请参阅[使用列统计信息](https://docs.amazonaws.cn/glue/latest/dg/column-statistics.html)。 | 2023 年 11 月 16 日 | 
| [支持 Iceberg 表的数据压缩](#doc-history) | 为提高 Amazon 分析服务（例如 Amazon Athena 和 Amazon EMR）和 Amazon Glue ETL 任务的读取性能，Data Catalog 为 Data Catalog 中的 Iceberg 表提供了托管式压缩功能（一种将小 Amazon S3 对象压缩成较大对象的进程）。有关更多信息，请参阅[优化 Iceberg 表](https://docs.amazonaws.cn/glue/latest/dg/console-tables.html#data-compaction)。 | 2023 年 11 月 13 日 | 
| [更新了作业运行等待行为](#doc-history) | 在某些情况下，标准 Spark 和 Python Shell 作业运行现在将过渡到 `WAITING`，而不是立即变为 `FAILED`。有关更多信息，请参阅 [Amazon Glue 作业运行状态](https://docs.amazonaws.cn/glue/latest/dg/job-run-statuses.html)。 | 2023 年 11 月 8 日 | 
| [Amazon Glue Studio 用户指南已合并到 Amazon Glue 开发者指南中](#doc-history) |  Amazon Glue Studio 用户指南已移至开发者指南，用于为 Amazon Glue Studio、Amazon Glue 控制台和 Amazon Glue Studio 编程访问创建单一的统一用户指南。 | 2023 年 10 月 25 日 | 
| [对 AWSGlueServiceNotebookRole Amazon 托管策略做出的更新](#doc-history) | 添加了有关对 AWSGlueServiceNotebookRole Amazon 托管策略做出的次要更新信息。有关更多信息，请参阅[对 Amazon 托管策略的 Amazon Glue 更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2023 年 10 月 9 日 | 
| [Amazon Glue Studio 支持五种新的内置转换](#doc-history) |  Amazon Glue Studio 支持以下五种新的内置转换：记录匹配、移除空行、解析 JSON 列、提取 JSON 路径和正则表达式提取器。有关更多信息，请参阅 [Editing Amazon Glue managed data transform nodes](https://docs.amazonaws.cn/glue/latest/ug/edit-jobs-transforms.html)。 | 2023 年 8 月 11 日 | 
| [对 AWSGlueServiceRole Amazon 托管式策略做出的更新](#doc-history) | 添加了有关对 AWSGlueServiceRole Amazon 托管式策略做出的次要更新信息。有关更多信息，请参阅[对 Amazon 托管策略的 Amazon Glue 更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2023 年 8 月 4 日 | 
| [支持爬取 Apache Hudi 表](#doc-history) | 添加了有关使用 Amazon Glue 在 Amazon S3 存储桶中爬取 Hudi 表以及将 Hudi 表注册到 Amazon Glue Data Catalog 的信息。有关更多信息，请参阅 [Which data stores can I crawl?](https://docs.amazonaws.cn/glue/latest/dg/crawler-data-stores.html) 和 [Crawler properties](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)。 | 2023 年 7 月 21 日 | 
| [对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的更新](#doc-history) | 添加了有关对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的次要更新信息。有关更多信息，请参阅 [Amazon Glue 对 Amazon 托管式策略做出的更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2023 年 7 月 14 日 | 
| [支持爬取 Apache Iceberg 表](#doc-history) | 添加了有关使用 Amazon Glue 在 Amazon S3 存储桶中爬取 Iceberg 表以及将 Iceberg 表注册到 Amazon Glue Data Catalog 的信息。有关更多信息，请参阅 [Which data stores can I crawl?](https://docs.amazonaws.cn/glue/latest/dg/crawler-data-stores.html) 和 [Crawler properties](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)。 | 2023 年 7 月 7 日 | 
| [支持 Amazon Glue with Ray](#doc-history) | 添加了有关 Amazon Glue with Ray 的信息，这是一款可以支持 Amazon Glue 作业的新引擎。重组现有的 Amazon Glue with Spark 内容以消除歧义。 | 2023 年 5 月 30 日 | 
| [支持 Amazon Glue Data Quality（预览版）](#doc-history) | Amazon Glue Data Quality 现已上市。Amazon GlueData Quality 可帮助您评估和监控数据质量。有关如何在 Data Catalog 中使用 Amazon Glue Data Quality 的信息，请参阅 [Amazon Glue Data Quality](https://docs.amazonaws.cn/glue/latest/dg/glue-data-quality)。要了解 Amazon Glue Data Quality for Amazon Glue Studio，请参阅 [Evaluating data quality with Amazon Glue Studio](https://docs.amazonaws.cn/glue/latest/ug/gs-data-quality-chapter.html)。 | 2023 年 5 月 24 日 | 
| [为 Apache Spark 作业支持更大的工作线程类型](#doc-history) | 现在支持使用适用于 Apache Spark 作业的 `G.4X` 和 `G.8X` 工作线程类型。对于工作线程类型适合包含要求最高的转换、聚合、联接和查询的作业。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2023 年 5 月 8 日 | 
| [支持在爬取表时创建分区索引](#doc-history) | 添加了有关爬网程序如何支持为爬网程序检测到的表创建分区索引的信息。有关更多信息，请参阅 [Setting the partition index crawler configuration option](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-configure-partition-indexes)。 | 2023 年 4 月 24 日 | 
| [支持资源使用量指标](#doc-history) | 添加了有关在 Amazon CloudWatch 中查看服务资源使用量和配置警报的信息。有关更多信息，请参阅 [Amazon Glue resource monitoring](https://docs.amazonaws.cn/glue/latest/dg/monitor-resource-metrics)。 | 2023 年 4 月 7 日 | 
| [对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的更新](#doc-history) | 添加了有关对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的次要更新信息。有关更多信息，请参阅 [Amazon Glue 对 Amazon 托管式策略做出的更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2023 年 3 月 28 日 | 
| [添加了将 Amazon Glue 与 Amazon SDK 一起使用的指南和示例](#doc-history) | Amazon Glue 开发者指南有两个新章节，提供帮助您将 Amazon Glue 与 Amazon SDK 一起使用的信息。如需了解更多信息，请参阅[将 Amazon Glue 与 Amazon SDK 一起使用](https://docs.amazonaws.cn/glue/latest/dg/sdk-general-information-section.html)和 [Amazon Glue 使用 Amazon SDK 的代码示例](https://docs.amazonaws.cn/glue/latest/dg/service_code_examples.html)。 | 2023 年 2 月 23 日 | 
| [使用 Amazon Glue 更新 IAM 文档](#doc-history) | 重新组织并添加了有关将 IAM 与 Amazon Glue 一起使用的信息 有关更多信息，请参阅 [Amazon Glue 的身份和访问权限管理](https://docs.amazonaws.cn/glue/latest/dg/security-iam)。 | 2023 年 2 月 15 日 | 
| [Amazon Glue 版本 4.0 支持运行流式处理 ETL 作业](#doc-history) | 添加了有关在 Glue 版本 4.0 中支持运行流式处理 ETL 作业的信息，以及连接到 Kafka 集群或适用于 Apache Kafka 集群的 Amazon Managed Streaming 和 Amazon Kinesis Data Streams 的新选项。有关更多信息，请参阅[在 Amazon Glue 中添加流式处理 ETL 作业](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html)和 [Amazon Glue 中的 ETL 连接类型和选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)。 | 2023 年 2 月 8 日 | 
| [支持爬取 MongoDB Atlas 数据来源](#doc-history) | 添加了有关使用 Amazon Glue 爬取 MongoDB Atlas 数据来源的信息。有关更多信息，请参阅[我可以爬取哪些数据存储？](https://docs.amazonaws.cn/glue/latest/dg/crawler-data-stores)、[MongoDB 和 MongoDB Atlas 连接属性](https://docs.amazonaws.cn/glue/latest/dg/connection-properties.html#connection-properties-mongodb)，以及[使用 MongoDB 或 MongoDB Atlas 连接](https://docs.amazonaws.cn/glue/latest/dg/connection-mongodb)。 | 2023 年 2 月 6 日 | 
| [支持使用本地 Delta Lake 连接器爬取 Delta Lake 表](#doc-history) | 增加了有关使用本地 Delta Lake 连接器并使用 Amazon Glue 爬取 Delta Lake 表的信息。此功能允许您使用 Amazon 查询引擎直接查询 Delta 事务日志，并使用诸如时空旅行和 ACID 保证之类的功能，还可以将来自 Amazon S3 事务文件的 Delta Lake 元数据同步到数据目录中，以启用对 Lake Formation 中的查询的列权限。有关更多信息，请参阅[如何为 Delta Lake 数据存储指定配置选项](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-delta-lake)和[查询 Delta Lake 表](https://docs.amazonaws.cn/athena/latest/ug/delta-lake-tables.html)。 | 2022 年 12 月 15 日 | 
| [支持 Amazon Glue Data Quality（预览版）](#doc-history) | 现在支持 Amazon Glue Data Quality（预览版）。Amazon Glue使用 Amazon Glue 3.0 版本 Data Quality，可帮助您评估和监控数据质量。有关如何在数据目录中使用 Amazon Glue Data Quality 的信息，请参阅 [Amazon Glue Data Quality（预览版）](https://docs.amazonaws.cn/glue/latest/dg/glue-data-quality)。要了解 Amazon Glue Data Quality for Amazon Glue Studio，请参阅 [Evaluating data quality with Amazon Glue Studio](https://docs.amazonaws.cn/glue/latest/ug/gs-data-quality-chapter.html)。 | 2022 年 11 月 30 日 | 
| [支持具有新功能和性能改进的全新 Amazon Redshift Spark 连接器](#doc-history) | 现在支持带有新的 JDBC 驱动程序的新 Amazon Redshift Spark 连接器，该连接器可用于 Amazon Glue ETL 任务，用于构建 Apache Spark 应用程序，在 AmazonRedshift 中读取和写入数据，作为数据摄取和转换管道的一部分。有关更多信息，请参阅[将数据移入和移出 Amazon Redshift](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect-redshift-home.html)。 | 2022 年 11 月 29 日 | 
| [支持 Amazon Glue 版本 4.0。](#doc-history) | 添加了有关 Amazon Glue 版本 4.0 的支持的信息。功能包括对带有 Apache Hudi、Delta Lake 和 Apache Iceberg 的开放数据湖框架的原生支持，以及对基于 Amazon S3 的 Cloud Shuffle 存储插件（Apache Spark 插件）的原生支持，该插件可使用 Amazon S3 进行随机排序和弹性存储容量。有关更多信息，请参阅 [Amazon Glue 发布说明](https://docs.amazonaws.cn/glue/latest/dg/release-notes.html)和[将 Amazon Glue 任务迁移到 Amazon Glue 版本 4.0](https://docs.amazonaws.cn/glue/latest/dg/migrating-version-40.html)。 | 2022 年 11 月 28 日 | 
| [Amazon Glue Studio 现提供自定义视觉转换](#doc-history) |  自定义视觉转换允许客户在团队之间定义、重用和共享特定于业务的 ETL 逻辑。有关更多信息，请参阅[自定义视觉转换](https://docs.amazonaws.cn/glue/latest/ug/custom-visual-transform.html)。 | 2022 年 11 月 28 日 | 
| [支持使用 Amazon Glue 爬网程序发布 JDBC 数据存储的元数据](#doc-history) | 现在支持使用 Amazon Glue 爬网程序将注释和原始类型等元数据发布到 JDBC 数据存储的数据目录。有关更多信息，请参阅[爬网程序在数据目录表上设置的参数](https://docs.amazonaws.cn/glue/latest/dg/table-properties-crawler.html)、[爬网程序属性](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)和 [JdbcTarget 结构](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-crawler-crawling.html#aws-glue-api-crawler-crawling-JdbcTarget)。 | 2022 年 11 月 18 日 | 
| [支持爬取 Snowflake 数据存储](#doc-history) | 现在支持 Amazon Glue 用于爬取 Snowflake 表和视图，以及将元数据作为表条目发布到数据目录。对于 Amazon S3 中的 Snowflake 外部表，爬网程序还会爬取外部表的 Amazon S3 位置和文件格式类型，并填充为表参数。有关更多信息，请参阅[我可以爬取哪些数据存储？](https://docs.amazonaws.cn/glue/latest/dg/crawler-data-stores.html)、[Amazon Glue 连接属性和](https://docs.amazonaws.cn/glue/latest/dg/connection-properties.html)[由爬网程序在数据目录表上设置的参数](https://docs.amazonaws.cn/glue/latest/dg/table-properties-crawler.html)。 | 2022 年 11 月 18 日 | 
| [支持改进 Spark 应用程序的随机排序管理](#doc-history) | 现在支持适用于 Apache Spark 的新 Cloud Shuffle 存储插件。有关更多信息，请参阅[带有 Amazon S3 的 Amazon Glue Spark shuffle 插件](https://docs.amazonaws.cn/glue/latest/dg/monitor-spark-shuffle-manager.html)和[适用于 Apache Spark 的 Cloud Shuffle 存储插件](https://docs.amazonaws.cn/glue/latest/dg/cloud-shuffle-storage-plugin.html)。 | 2022 年 11 月 15 日 | 
| [添加了在加速爬取 Amazon S3 事件通知时对 Data Catalog 目标的支持](#doc-history) | 除了对 Amazon S3 目标的现有支持外，现在还支持使用 Amazon S3 事件通知加速对 Data Catalog 目标的爬取。有关更多信息，请参阅 [使用 Amazon S3 事件通知加速网络爬取](https://docs.amazonaws.cn/glue/latest/dg/crawler-s3-event-notifications.html)。 | 2022 年 10 月 13 日 | 
| [支持指定爬网程序可以创建的最大表数](#doc-history) | 现已支持指定允许爬网程序创建的最大表数。有关更多信息，请参阅[如何指定允许爬网程序创建的最大表数](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-maximum-number-of-tables)。 | 2022 年 9 月 6 日 | 
| [在 Amazon Glue 中的 Python shell 任务中支持 Python 3.9](#doc-history) | 现在支持在 Amazon Glue 的 Python shell 任务中运行与 Python 3.9 兼容的脚本，以及选择使用预打包的库集。有关更多信息，请参阅 [Amazon Glue 中的 Python shell 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-python.html)。 | 2022 年 8 月 11 日 | 
| [支持在备用容量上运行非紧急或非时间敏感型 Amazon Glue 任务](#doc-history) | 现在支持为非紧急任务（例如生产前任务、测试和一次性数据加载）配置灵活的任务运行。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2022 年 8 月 9 日 | 
| [支持适用于流式处理任务的新 Worker 类型](#doc-history) | 现在提供适用于低容量流式处理任务的 `G.025X` 类型。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2022 年 7 月 14 日 | 
| [支持在 Amazon Glue 连接中使用 Kafka SASL](#doc-history) | 现在支持在 Amazon Glue 连接中使用 Kafka SASL。有关更多信息，请参阅[适用于客户端身份认证的 Amazon Glue Kafka 连接属性](https://docs.amazonaws.cn/glue/latest/dg/connection-properties.html#connection-properties-authentication)。 | 2022 年 7 月 5 日 | 
| [针对 Protobuf 架构的 Apache Kafka Connector 支持](#doc-history) | 现已提供针对 Protobuf 架构的 Apache Kafka Connector 支持 有关更多信息，请参阅 [Amazon Glue 架构注册表](https://docs.amazonaws.cn/glue/latest/dg/schema-registry.html)。 | 2022 年 6 月 9 日 | 
| [支持 Amazon Glue 任务的自动扩缩 (GA)](#doc-history) | 添加了 Amazon Glue 版本 3.0 中的任务使用自动扩缩的信息，从而动态扩缩计算资源。有关更多信息，请参阅[为 Amazon Glue 使用自动扩缩](https://docs.amazonaws.cn/glue/latest/dg/auto-scaling.html)。 | 2022 年 4 月 14 日 | 
| [更新了有关 Amazon Glue 开发和测试 Amazon Glue 任务脚本的文档](#doc-history) | 重组并添加了有关 Amazon Glue 的可用开发和测试方法的信息，包括使用 Docker 进行开发的说明。有关更多信息，请参阅[开发和测试 Amazon Glue 任务脚本](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-libraries.html)。 | 2022 年 3 月 14 日 | 
| [将协议缓冲区作为受支持的数据格式添加到 Amazon Glue 架构注册表](#doc-history) | 添加了有关 Protobuf 作为受支持的数据格式（除 AVRO 和 JSON 之外）的信息。有关更多信息，请参阅 [Amazon Glue 架构注册表](https://docs.amazonaws.cn/glue/latest/dg/schema-registry.html)。 | 2022 年 2 月 25 日 | 
| [支持爬取 Delta Lake 表](#doc-history) | 增加了有关使用 Amazon Glue 爬取 Delta Lake 表的信息。有关更多信息，请参阅 [How to specify configuration options for a Delta Lake data store](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-delta-lake)。 | 2022 年 2 月 24 日 | 
| [对 Amazon Glue 任务洞察的支持](#doc-history) | 已添加关于使用 Amazon Glue 任务洞察的信息，以简化任务调试及对 Amazon Glue 任务进行优化。有关更多信息，请参阅[通过 Amazon Glue 任务洞察进行监控](https://docs.amazonaws.cn/glue/latest/dg/monitor-job-insights.html)。 | 2022 年 2 月 8 日 | 
| [使用 VPC 终端节点支持网络爬取 Amazon S3 支持的数据目录表](#doc-history) | 除了 Amazon S3 数据商店之外，出于安全、审计或控制目的，您可以配置您的 Amazon S3 支持的数据目录表，使之仅由 Amazon Virtual Private Cloud 环境 (Amazon VPC) 访问。有关更多信息，请参阅[使用 VPC 终端节点网络爬取 Amazon S3 数据存储或 Amazon S3 支持的数据目录表](https://docs.amazonaws.cn/glue/latest/dg/connection-S3-VPC.html)。 | 2022 年 2 月 3 日 | 
| [支持 Lake Formation 受管表](#doc-history) | 添加了关于 Amazon Glue 对 Lake Formation 受管表的支持的信息，这些表支持 ACID 事务、自动数据压缩和时间旅行查询。有关更多信息，请参阅 [Amazon Glue API](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api.html) 和 [Amazon Lake Formation 开发人员指南](https://docs.amazonaws.cn/lake-formation/latest/dg/governed-tables.html)。 | 2021 年 11 月 30 日 | 
| [添加了适用于交互式会话和笔记本的新 Amazon 托管式策略](#doc-history) | 适用于 IAM 的新托管式策略为将 Amazon Glue 与交互式会话和笔记本配合使用提供了增强的安全性。有关更多信息，请参阅[适用于 Amazon Glue 的 Amazon 托管策略](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol)。 | 2021 年 11 月 30 日 | 
| [流式处理任务现在支持 Glue 架构注册表](#doc-history) | 您可以创建能够访问属于 Glue 架构注册表的表的流式处理任务。有关更多信息，请参阅 [Amazon Glue 结构注册表](https://docs.amazonaws.cn/glue/latest/dg/schema-registry.html)和[在 Amazon Glue 中添加流式处理 ETL 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html)。 | 2021 年 11 月 15 日 | 
| [支持新的机器学习功能](#doc-history) | 添加了关于查找匹配项机器学习转换（包括递增匹配项和匹配项评分）的新功能的信息。有关更多信息，请参阅 [查找递增匹配项](https://docs.amazonaws.cn/glue/latest/dg/machine-learning-incremental-matches.html)和[使用匹配项置信度分数估算匹配项质量](https://docs.amazonaws.cn/glue/latest/dg/add-job-machine-learning-transform-tuning.html#match-scoring)。 | 2021 年 10 月 31 日 | 
| [（私有预览版）支持 Amazon Glue 灵活作业](#doc-history) | 增加了关于配置具有灵活执行类的 Amazon Glue Spark 任务的信息，适用于启动和完成时间可能不同的时间不敏感型任务。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2021 年 10 月 29 日 | 
| [支持使用 Amazon S3 事件通知加速网络爬取](#doc-history) | 添加了关于使用 Amazon S3 事件通知加速网络爬取的信息。有关更多信息，请参阅 [使用 Amazon S3 事件通知加速网络爬取](https://docs.amazonaws.cn/glue/latest/dg/crawler-s3-event-notifications.html)。 | 2021 年 10 月 15 日 | 
| [与访问控制和 VPC 相关的其他安全配置选项](#doc-history) | 添加了关于您如何在 Amazon Glue 上配置新的访问控制权限以及 VPC 配置信息。有关更多信息，请参阅 [Amazon Glue 中的 Amazon标签](https://docs.amazonaws.cn/glue/latest/dg/monitor-tags.html)、[使用条件键或上下文键控制设置的基于身份的策略 (IAM policy)](https://docs.amazonaws.cn/glue/latest/dg/security_iam_id-based-policy-examples.html#glue-identity-based-policy-condition-keys)，以及[将所有 Amazon 调用配置为通过 VPC 进行](https://docs.amazonaws.cn/glue/latest/dg/connection-VPC-disable-proxy.html)。 | 2021 年 10 月 13 日 | 
| [支持 VPC 终端节点策略](#doc-history) | 添加了关于支持 Amazon Glue 中的 Virtual Private Cloud (VPC) 端点策略的信息。有关更多信息，请参阅 [Amazon Glue 和接口 VPC 终端节点 (Amazon PrivateLink)](https://docs.amazonaws.cn/glue/latest/dg/vpc-interface-endpoints.html)。 | 2021 年 10 月 11 日 | 
| [Glue Studio 现已在中国可用](#doc-history) |  Amazon Glue Studio 现已在中国北京和宁夏区域可用。 | 2021 年 10 月 11 日 | 
| [Amazon Glue Studio 提供笔记本创作，用于交互式任务编辑](#doc-history) | 笔记本可以帮助您编写和执行代码、可视化结果和共享见解。通常，数据科学家使用笔记本来执行实验和数据探索任务。有关更多信息，请参阅[使用 notebook](https://docs.amazonaws.cn/glue/latest/ug/notebooks-chapter.html)。 | 2021 年 10 月 1 日 | 
| [现在可以直接访问流式处理源](#doc-history) | 在可视化编辑器中将数据源添加到 ETL 任务时，您可以提供信息来访问数据流，而不必使用数据目录数据库和表。 | 2021 年 9 月 30 日 | 
| [记录了 Amazon Glue 版本支持策略](#doc-history) | 添加了关于 Amazon Glue 版本支持策略和某些 Amazon Glue 版本的使用寿命结束阶段的信息。有关更多信息，请参阅 [Amazon Glue 版本支持策略](https://docs.amazonaws.cn/glue/latest/dg/glue-version-support-policy.html)。 | 2021 年 9 月 24 日 | 
| [自定义连接器现在可以与数据预览一起使用](#doc-history) | 使用自定义连接器编辑数据源节点时，可以选择 Dat preview（数据集预览）选项卡预览数据集。有关更多信息，请参阅[自定义连接器](https://docs.amazonaws.cn/glue/latest/ug/connectors-chapter.html)。 | 2021 年 9 月 24 日 | 
| [支持 Amazon Glue 交互式会话（私有预览版）](#doc-history) | （私有预览版）添加了关于使用 Amazon Glue 交互式会话通过任何 Jupyter Notebook 在云端运行 Spark 工作负载的信息。当您使用 Amazon Glue 2.0 或更高版本时，交互式开发是开发 Amazon Glue 提取、转换和加载 (ETL) 代码的首选方法。有关更多信息，请参阅[为 Jupyter Notebook 设置和运行 Amazon Glue 交互式会话](https://docs.amazonaws.cn/glue/latest/dg/interactive-sessions.html)。 | 2021 年 8 月 24 日 | 
| [支持通过蓝图创建工作流 (GA)](#doc-history) | 添加了有关在蓝图中对常见提取、转换和加载（ETL）使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息，请参阅[使用 Amazon Glue 中的蓝图和工作流执行复杂的 ETL 活动](https://docs.amazonaws.cn/glue/latest/dg/orchestrate-using-workflows.html)。 | 2021 年 8 月 23 日 | 
| [支持 Amazon Glue 版本 3.0。](#doc-history) | 添加了有关支持 Amazon Glue 版本 3.0 的信息，该版本支持用于运行 Apache Spark ETL 任务的 Apache Spark 3.0 引擎升级，以及其他优化和升级信息。有关更多信息，请参阅 [Amazon Glue 发布说明](https://docs.amazonaws.cn/glue/latest/dg/release-notes.html)和[将 Amazon Glue 任务迁移到 Amazon Glue 版本 3.0](https://docs.amazonaws.cn/glue/latest/dg/migrating-version-30.html)。此版本中的其他功能包括 Amazon Glue 随机播放管理器、SIMD 矢量化 CSV 读取器和目录分区谓词。有关更多信息，请参阅[使用 Amazon S3 的 Amazon Glue Spark 随机播放管理器](https://docs.amazonaws.cn/glue/latest/dg/monitor-spark-shuffle-manager.html)、[Amazon Glue 中的 ETL 输入和输出的格式选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-format.html#aws-glue-programming-etl-format-csv)和[使用目录分区谓词的服务器端筛选](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-partitions.html#aws-glue-programming-etl-partitions-cat-predicates)。 | 2021 年 8 月 18 日 | 
| [Amazon GovCloud (US) Region](#doc-history) | Amazon Glue Studio 现已在 Amazon GovCloud (US) Region 中可用 | 2021 年 8 月 18 日 | 
| [Python Shell 编写适用于 Amazon Glue Studio](#doc-history) | 创建新任务时，您现在可以选择创建 Python Shell 任务。有关更多信息，请参阅 [开启任务创建流程](https://docs.amazonaws.cn/glue/latest/ug/creating-jobs-chapter.html#create-jobs-start)和[在 Amazon Glue Studio 中编辑 Python Shell 任务](https://docs.amazonaws.cn/glue/latest/ug/edit-script.html#edit-job-python-shell)。 | 2021 年 8 月 13 日 | 
| [支持使用 Amazon EventBridge 事件开启工作流](#doc-history) | 添加了有关 Amazon Glue 如何可以成为事件驱动架构中的事件使用者的信息。有关更多信息，请参阅[使用 Amazon EventBridge 事件启动 Amazon Glue 工作流](https://docs.amazonaws.cn/glue/latest/dg/starting-workflow-eventbridge.html)和[查看启动工作流的 EventBridge 事件](https://docs.amazonaws.cn/glue/latest/dg/viewing-start-event-info.html)。 | 2021 年 7 月 14 日 | 
| [将 JSON 作为受支持的数据格式添加到 Amazon Glue 架构注册表](#doc-history) | 添加了有关 JSON 作为受支持的数据格式（除 AVRO 之外）的信息。有关更多信息，请参阅 [Amazon Glue 架构注册表](https://docs.amazonaws.cn/glue/latest/dg/schema-registry.html)。 | 2021 年 6 月 30 日 | 
| [不使用数据目录表创建 Amazon Glue 流式处理任务](#doc-history) | [https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html#aws-glue-api-crawler-pyspark-extensions-glue-context-create-dataframe-from-options) Python 函数或 [https://docs.amazonaws.cn/glue/latest/dg/glue-etl-scala-apis-glue-gluecontext.html#glue-etl-scala-apis-glue-gluecontext-defs-getSource](https://docs.amazonaws.cn/glue/latest/dg/glue-etl-scala-apis-glue-gluecontext.html#glue-etl-scala-apis-glue-gluecontext-defs-getSource) 支持创建直接引用数据流的流式处理 ETL 任务的 Scala 脚本，无需数据目录表。 | 2021 年 6 月 15 日 | 
| [Amazon Glue 机器学习转换现支持 Amazon Key Management Service 密钥](#doc-history) | 在您使用控制台、CLI 或 Amazon Glue API 配置 Amazon Glue Machine Learning 转换时，您都可以指定安全配置或 Amazon KMS 密钥。有关更多信息，请参阅 [将数据加密与 Machine Learning 转换结合使用](https://docs.amazonaws.cn/glue/latest/dg/console-machine-learning-transforms.html#console-machine-learning-transforms-actions)和 [Amazon Glue Machine Learning API](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-machine-learning-api.html)。 | 2021 年 6 月 15 日 | 
| [对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的更新](#doc-history) | 添加了有关对 AWSGlueConsoleFullAccess Amazon 托管式策略做出的次要更新信息。有关更多信息，请参阅 [Amazon Glue 对 Amazon 托管式策略做出的更新](https://docs.amazonaws.cn/glue/latest/dg/security-iam-awsmanpol.html#security-iam-awsmanpol-updates)。 | 2021 年 6 月 10 日 | 
| [在创建和编辑任务时查看任务的数据集](#doc-history) | 您可以为任务图中的节点使用新的 **Data Preview (数据预览)** 选项卡，以查看由该节点处理的数据示例。有关更多信息，请参阅[在可视化任务编辑器中使用数据预览](https://docs.amazonaws.cn/glue/latest/ug/job-editor-features.html#data-previews)。 | 2021 年 6 月 7 日 | 
| [支持指定用于指示爬网程序输出表位置的值。](#doc-history) | 添加了有关在配置爬网程序输出时指定表位置的值的信息。有关更多信息，请参阅[如何指定表位置](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html#crawler-table-level)。 | 2021 年 6 月 4 日 | 
| [支持网络爬取 Amazon S3 数据存储时网络爬取数据集中的示例文件](#doc-history) | 添加了有关在网络爬取 Amazon S3 时如何网络爬取示例文件的信息。有关更多信息，请参阅[爬网程序属性](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)。 | 2021 年 5 月 10 日 | 
| [支持 Amazon Glue 优化的 Parquet 写入器](#doc-history) | 添加了有关使用针对 DynamicFrames 所优化的 Amazon Glue Parquet 写入器，来使用 `parquet` 分类创建和更新表的信息。有关更多信息，请参阅[通过 Amazon Glue ETL 任务在数据目录中创建表、更新架构和添加新分区](https://docs.amazonaws.cn/glue/latest/dg/update-from-job.html)和[在 Amazon Glue 中的 ETL 输入和输出的格式选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-format.html)。 | 2021 年 5 月 4 日 | 
| [支持 Kafka 客户端身份验证密码](#doc-history) | 添加了有关 Amazon Glue 中的流式处理 ETL 任务如何支持 Apache Kafka 串流创建器的 SSL 客户端证书身份验证的信息。现在，您可以提供自定义证书，同时定义 Apache Kafka 集群的 Amazon Glue 连接，Amazon Glue 将在该证书进行身份验证时使用该连接。有关更多信息，请参阅 [Amazon Glue 连接属性](https://docs.amazonaws.cn/glue/latest/dg/connection-properties.html)和[连接 API](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-catalog-connections.html)。 | 2021 年 4 月 28 日 | 
| [支持在流式处理 ETL 任务的其他账户中使用来自 Amazon Kinesis Data Streams 的数据](#doc-history) | 添加了有关创建流式处理 ETL 任务以在其他账户中使用来自 Amazon Kinesis Data Streams 的数据的信息。有关更多信息，请参阅[在 Amazon Glue 中添加流式处理 ETL 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html)。 | 2021 年 3 月 30 日 | 
| [提供 SQL 转换](#doc-history) | 您可以使用 **SQL** 转换节点以 SQL 查询形式编写您自己的转换。有关更多信息，请参阅[使用 SQL 查询转换数据](https://docs.amazonaws.cn/glue/latest/ug/edit-jobs-transforms.html#transforms-sql)。 | 2021 年 3 月 23 日 | 
| [支持从蓝图创建工作流（公开预览版）](#doc-history) | （公开预览版）添加了有关在蓝图中对常见提取、转换和加载（ETL）使用案例进行编码和通过蓝图创建工作流的信息。使数据分析人员能够轻松创建和运行复杂的 ETL 进程。有关更多信息，请参阅[使用 Amazon Glue 中的蓝图和工作流执行复杂的 ETL 活动](https://docs.amazonaws.cn/glue/latest/dg/orchestrate-using-workflows.html)。 | 2021 年 3 月 22 日 | 
| [连接器可用于数据目标](#doc-history) | 现在支持为数据目标使用自定义或 Amazon Web Services Marketplace 连接器。有关更多信息，请参阅[使用自定义连接器编写任务](https://docs.amazonaws.cn/glue/latest/ug/connectors-chapter.html#job-authoring-custom-connectors)。 | 2021 年 3 月 15 日 | 
| [支持 Amazon Glue 机器学习转换的列重要指标](#doc-history) | 添加了有关使用 Amazon Glue 机器学习转换时查看列重要性指标的信息。有关更多信息，请参阅[在 Amazon Glue 控制台上使用 Machine Learning 转换](https://docs.amazonaws.cn/glue/latest/dg/console-machine-learning-transforms.html) | 2021 年 2 月 5 日 | 
| [任务计划现在适用于 Amazon Glue Studio](#doc-history) | 您可以在 Amazon Glue Studio 中为任务运行定义基于时间的计划。您可以使用控制台创建基本计划，或者使用类似 Unix 的 [cron](http://en.wikipedia.org/wiki/Cron) 语法定义更复杂的计划。有关更多信息，请参阅[计划任务运行](https://docs.amazonaws.cn/glue/latest/ug/managing-jobs-chapter.html#schedule-jobs)。 | 2020 年 12 月 21 日 | 
| [Amazon Glue 自定义连接器已发布](#doc-history) | Amazon Glue 自定义连接器允许您在 Amazon Web Services Marketplace 中发现和订阅连接器。我们还发布了 Amazon Glue Spark 运行时接口，用于插入为 Apache Spark Datasource、Athena 联合查询和 JDBC API 构建的连接器。有关更多信息，请参阅 [在 Amazon Glue Studio 中使用连接器和连接](https://docs.amazonaws.cn/glue/latest/ug/connectors-chapter.html)。 | 2020 年 12 月 21 日 | 
| [Amazon Glue 版本 2.0 支持运行流式处理 ETL 任务](#doc-history) | 添加了有关支持在 Glue 版本 2.0 中运行流式处理 ETL 任务的信息 有关更多信息，请参阅[在 Amazon Glue 中添加流式处理 ETL 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html)。 | 2020 年 12 月 18 日 | 
| [支持具有有界执行的工作负载分区](#doc-history) | 添加了有关启用工作负载分区来配置数据集大小或 ETL 任务运行时处理的文件数的上限的信息。有关更多信息，请参阅[具有有界执行的工作负载分区](https://docs.amazonaws.cn/glue/latest/dg/bounded-execution.html)。 | 2020 年 11 月 23 日 | 
| [支持增强型分区管理](#doc-history) | 添加了有关如何使用新 API 将分区索引添加到现有表/从现有表删除的信息。有关更多信息，请参阅[使用分区索引](https://docs.amazonaws.cn/glue/latest/dg/partition-indexes.html)。 | 2020 年 11 月 23 日 | 
| [支持 Amazon Glue 架构注册表](#doc-history) | 添加了有关使用 Amazon Glue 架构注册表来集中发现、控制和演变架构的信息。有关更多信息，请参阅 [Amazon Glue 架构注册表](https://docs.amazonaws.cn/glue/latest/dg/schema-registry.html)。 | 2020 年 11 月 19 日 | 
| [支持流式处理 ETL 作业中的 grok 输入格式](#doc-history) | 添加了有关将 Grok 模式应用于流式处理源（如日志文件）的信息。有关更多信息，请参阅[将 Grok 模式应用于流式处理源](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html#create-table-streaming-grok)。 | 2020 年 11 月 17 日 | 
| [支持在 Amazon Glue 控制台将标签添加到工作流](#doc-history) | 添加了有关使用 Amazon Glue 控制台创建工作流时添加标签的信息。有关更多信息，请参阅[使用 Amazon Glue 控制台创建和构建工作流](https://docs.amazonaws.cn/glue/latest/dg/creating_running_workflows.html#creating_workflow)。 | 2020 年 10 月 27 日 | 
| [支持增量爬网程序运行](#doc-history) | 添加了有关支持仅爬取自上次运行以来添加的 Amazon S3 文件夹的增量爬网程序运行的信息。有关更多信息，请参阅[增量爬网](https://docs.amazonaws.cn/glue/latest/dg/incremental-crawls.html)。 | 2020 年 10 月 21 日 | 
| [支持流式处理 ETL 数据源的架构检测。支持 Avro 流式处理 ETL 数据源和自行管理 kafka](#doc-history) | 在 Amazon Glue 中的流式处理提取、转换和加载（ETL）任务现在可以自动检测传入记录的架构，并在每条记录的基础上处理架构更改。现已支持自行管理的 Kafka 数据源。流式处理 ETL 任务现支持数据源中的 Avro 格式。有关更多信息，请参阅 [Amazon Glue 中的流式处理 ETL](https://docs.amazonaws.cn/glue/latest/dg/components-overview.html#streaming-etl-intro)、[定义流式处理 ETL 任务的任务属性](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html#create-job-streaming-properties)和 [Avro 流式处理源的注释和限制](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html#create-table-streaming)。 | 2020 年 10 月 7 日 | 
| [支持网络爬取 MongoDB 和 DocumentDB 数据源](#doc-history) | 添加了有关支持网络爬取 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 数据源的信息。有关更多信息，请参阅[定义爬网程序](https://docs.amazonaws.cn/glue/latest/dg/add-crawler.html)。 | 2020 年 10 月 5 日 | 
| [支持 FIPS 合规性](#doc-history) | 添加了有关客户在使用 Amazon Glue 访问数据时需要 FIPS 140-2 验证的加密模块的 FIPS 终端节点的信息。有关更多信息，请参阅 [FIPS 合规性](https://docs.amazonaws.cn/glue/latest/dg/fips-compliance.html)。 | 2020 年 9 月 23 日 | 
| [Amazon Glue Studio 提供了一个易于使用的可视化界面，用于创建和监控任务](#doc-history) | 现在，您可以使用简单的基于图形的界面来编写移动和转换数据的任务，并可以在 Amazon Glue 中运行。然后，您可以在 Amazon Glue Studio 中使用任务运行控制面板来监控 ETL 执行情况，并确保您的任务按预期运行。有关更多信息，请参阅 [Amazon Glue Studio 用户指南](https://docs.amazonaws.cn/glue/latest/ug/)。 | 2020 年 9 月 23 日 | 
| [支持创建表索引来提高查询性能](#doc-history) | 添加了有关创建表索引来允许您从表中检索分区子集的信息。有关更多信息，请参阅[使用分区索引](https://docs.amazonaws.cn/glue/latest/dg/partition-indexes.html)。 | 2020 年 9 月 9 日 | 
| [支持在 Amazon Glue 版本 2.0 中运行 Apache Spark ETL 任务时减少启动时间。](#doc-history) | 添加了有关支持 Amazon Glue 版本 2.0 的信息，该版本提供了升级的基础设施，用于运行 Apache Spark ETL 任务，减少了启动时间、更改了日志记录，并支持在任务级别指定其他 Python 模块。有关更多信息，请参阅 [Amazon Glue 发布说明](https://docs.amazonaws.cn/glue/latest/dg/release-notes.html)和[运行 Spark ETL 任务，减少启动时间](https://docs.amazonaws.cn/glue/latest/dg/reduced-start-times-spark-etl-jobs.html)。 | 2020 年 8 月 10 日 | 
| [支持限制并发工作流运行次数。](#doc-history) | 添加了有关如何限制特定工作流的并发工作流运行次数的信息。有关更多信息，请参阅[使用 Amazon Glue 控制台创建和构建工作流](https://docs.amazonaws.cn/glue/latest/dg/creating_running_workflows.html#creating_workflow)。 | 2020 年 8 月 10 日 | 
| [支持使用 VPC 终端节点网络爬取 Amazon S3 数据存储](#doc-history) | 添加了有关配置仅通过 Amazon Virtual Private Cloud 环境（Amazon VPC）且出于安全、审计或控制目的，才可以访问 Amazon S3 数据存储的信息。有关更多信息，请参阅[使用 VPC 终端节点网络爬取 Amazon S3 数据存储](https://docs.amazonaws.cn/glue/latest/dg/connection-S3-VPC.html)。 | 2020 年 8 月 7 日 | 
| [支持恢复工作流运行](#doc-history) | 添加了以下相关信息：如何恢复因一个或多个节点（任务或爬网程序）未成功完成而导致斤部分完成的工作流运行。有关更多信息，请参阅[修复和恢复工作流运行](https://docs.amazonaws.cn/glue/latest/dg/resuming-workflow.html)。 | 2020 年 7 月 27 日 | 
| [支持在 Amazon Glue 的 Kafka 连接中启用私有 CA 证书。](#doc-history) | 添加了有关支持在 Amazon Glue Kafka 连接中启用私有 CA 证书的新连接选项的信息。有关更多信息，请参阅 [Amazon Glue 中的 ETL 的连接类型和选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)和 [Amazon Glue 使用的特殊参数](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html)。 | 2020 年 7 月 20 日 | 
| [支持从其他账户中读取 DynamoDB 数据](#doc-history) | 添加了有关 Amazon Glue 支持从另一个 Amazon 账户的 DynamoDB 表中读取数据的信息。有关更多信息，请参阅[从另一个账户中读取 DynamoDB 数据](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-dynamo-db-cross-account.html)。 | 2020 年 7 月 17 日 | 
| [支持 Amazon Glue 版本 1.0 或更高版本中的 DynamoDB 写入器连接](#doc-history) | 添加了有关支持 DynamoDB 写入器，以及用于 DynamoDB 读取或写入的新连接选项或更新的连接选项的信息。有关更多信息，请参阅 [Amazon Glue 中的 ETL 的连接类型和选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)。 | 2020 年 7 月 17 日 | 
| [支持同时使用 Amazon Glue 和 Lake Formation 的资源链接和跨账户访问权限控制](#doc-history) | 添加了有关称为资源链接的新数据目录对象，以及如何管理借助 Amazon Glue 和 Amazon Lake Formation 跨账户的共享数据目录资源的内容。有关更多信息，请参阅[授予跨账户访问权限](https://docs.amazonaws.cn/glue/latest/dg/cross-account-access.html#cross-account-adding-resource-policy)和[表资源链接](https://docs.amazonaws.cn/glue/latest/dg/tables-described.html#tables-resource-links)。 | 2020 年 7 月 7 日 | 
| [在对 DynamoDB 数据存储进行网络爬取时，支持对记录进行采样](#doc-history) | 添加了有关在对 DynamoDB 数据存储进行网络爬取时可配置的新属性的信息。有关更多信息，请参阅[爬网程序属性](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)。 | 2020 年 6 月 12 日 | 
| [支持停止工作流程运行。](#doc-history) | 添加了有关如何停止特定工作流程的工作流程运行的信息。有关更多信息，请参阅[停止工作流程运行](https://docs.amazonaws.cn/glue/latest/dg/workflow-stopping.html)。 | 2020 年 5 月 14 日 | 
| [支持 Spark 流式处理 ETL 任务](#doc-history) | 增加了有关使用流式处理数据源创建提取、转换和加载 (ETL) 任务的信息。有关更多信息，请参阅[在 Amazon Glue 中添加流式处理 ETL 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-streaming.html)。 | 2020 年 4 月 27 日 | 
| [支持在运行 ETL 任务后在数据目录中创建表、更新架构和添加新分区](#doc-history) | 添加了有关如何启用创建表、更新架构和添加新分区以在数据目录中查看 ETL 作业结果的信息。有关更多信息，请参阅[通过 Amazon Glue ETL 任务在数据目录中创建表、更新架构和添加新分区](https://docs.amazonaws.cn/glue/latest/dg/update-from-job.html)。 | 2020 年 4 月 2 日 | 
| [支持在 Amazon Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出](#doc-history) | 添加了有关在 Amazon Glue 中将 Apache Avro 数据格式的版本指定为 ETL 输入和输出的信息。默认版本 1.7。您可以使用 `version` 格式选项指定 Avro 版本 1.8 以启用逻辑读取/写入。有关更多信息，请参阅 [Amazon Glue 中 ETL 输入和输出的格式选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-format.html)。 | 2020 年 3 月 31 日 | 
| [支持 EMRFS 经 S3 优化的提交程序，用于将 Parquet 数据写入 Amazon S3](#doc-history) | 添加了有关如何设置新标志以启用经 EMRFR S3 优化的提交程序在创建或更新 Amazon Glue 任务时将 Parquet 数据写入 Amazon S3 的信息。有关更多信息，请参阅 [Amazon Glue 所使用的特殊参数](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html)。 | 2020 年 3 月 30 日 | 
| [支持将机器学习转换为由 Amazon 资源标签管理的资源](#doc-history) | 添加了有关使用 Amazon 资源标签管理和控制对 Amazon Glue 中的机器学习转换的访问的信息。您可以将 Amazon 资源标签分配给 Amazon Glue 中的任务、触发器、终端节点、爬网程序和机器学习转换。有关更多信息，请参阅 [Amazon Glue 中的 Amazon 标签](https://docs.amazonaws.cn/glue/latest/dg/monitor-tags.html)。 | 2020 年 3 月 2 日 | 
| [支持不可覆盖的任务参数](#doc-history) | 添加了有关对于特殊作业参数的支持的信息，您无法在触发器中或运行作业时覆盖这些参数。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2020 年 2 月 12 日 | 
| [支持新的转换以在 Amazon S3 中使用数据集](#doc-history) | 添加了有关新转换（合并、清除和过渡）和 Amazon S3 存储类别排除的信息，以便 Apache Spark 应用程序在 Amazon S3 中使用数据集。有关支持对适用于 Python 的这些转换的更多信息，请参阅 [mergeDynamicFrame](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-dynamic-frame.html#aws-glue-api-crawler-pyspark-extensions-dynamic-frame-merge) 和[在 Amazon S3 中使用数据集](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-api-crawler-pyspark-extensions-glue-context.html#aws-glue-api-crawler-pyspark-extensions-glue-context-_storage_layer)。对于 Scala，请参阅 [mergeDynamicFrames](https://docs.amazonaws.cn/glue/latest/dg/glue-etl-scala-apis-glue-dynamicframe-class.html#glue-etl-scala-apis-glue-dynamicframe-class-defs-merge) 和 [Amazon Glue Scala GlueContext API](https://docs.amazonaws.cn/glue/latest/dg/glue-etl-scala-apis-glue-gluecontext.html)。 | 2020 年 1 月 16 日 | 
| [支持使用 ETL 任务中的新分区信息更新数据目录](#doc-history) | 添加了有关如何对提取、转换和加载 (ETL) 脚本进行编码以使用新的分区信息更新 Amazon Glue Data Catalog 的信息。使用此功能，您不再需要在作业完成后重新运行爬网程序来查看新分区。有关更多信息，请参阅[使用新分区更新数据目录](https://docs.amazonaws.cn/glue/latest/dg/update-from-job.html)。 | 2020 年 1 月 15 日 | 
| [新教程：使用 SageMaker AI 笔记本](#doc-history) | 添加了一个教程，该教程演示如何使用 Amazon SageMaker 笔记本来帮助开发 ETL 和机器学习脚本。请参阅[教程：将 Amazon SageMaker 笔记本与您的开发终端节点结合使用](https://docs.amazonaws.cn/glue/latest/dg/dev-endpoint-tutorial-sage.html)。 | 2020 年 1 月 3 日 | 
| [支持从 MongoDB 和 Amazon DocumentDB（与 MongoDB 兼容）读取数据](#doc-history) | 添加了有关用于读取和写入 MongoDB 和 Amazon DocumentDB (with MongoDB compatibility) 的新连接类型和连接选项的信息。有关更多信息，请参阅 [Amazon Glue 中的 ETL 的连接类型和选项](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)。 | 2019 年 12 月 17 日 | 
| [各种更正和说明](#doc-history) | 全文中添加了更正和说明。从“已知问题”一章中删除了条目。添加了指示 Amazon Glue 仅在指定数据目录加密设置和创建安全配置时支持对称客户主密钥 (CMK) 的警告。添加了指明 Amazon Glue 不支持写入 Amazon DynamoDB 的注释。 | 2019 年 12 月 9 日 | 
| [支持自定义 JDBC 驱动程序](#doc-history) | 添加了有关使用 Amazon Glue 本身不支持的 JDBC 驱动程序（例如 MySQL 版本 8 和 Oracle 数据库版本 18）连接到数据源和目标的信息。有关更多信息，请参阅 [JDBC 连接类型值](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-jdbc)。 | 2019 年 11 月 25 日 | 
| [支持将 SageMaker AI 笔记本连接到不同的开发端点](#doc-history) | 添加了有关如何将 SageMaker AI 笔记本连接到不同开发端点的信息。对用于切换到新的开发端点的新控制台操作以及新的 SageMaker AI IAM 策略的描述进行了更新。有关更多信息，请参阅[在 Amazon Glue 控制台上使用笔记本](https://docs.amazonaws.cn/glue/latest/dg/console-notebooks.html)和[为 Amazon SageMaker AI 笔记本创建 IAM 策略](https://docs.amazonaws.cn/glue/latest/dg/create-sagemaker-notebook-policy.html)。 | 2019 年 11 月 21 日 | 
| [支持机器学习转换的 Amazon Glue 版本](#doc-history) | 添加了有关在机器学习转换中定义 Amazon Glue 版本的信息，以指示机器学习转换与哪个版本的 Amazon Glue 兼容。有关更多信息，请参阅[在 Amazon Glue 控制台上使用 Machine Learning 转换](https://docs.amazonaws.cn/glue/latest/dg/console-machine-learning-transforms.html)。 | 2019 年 11 月 21 日 | 
| [支持倒回任务书签](#doc-history) | 添加了有关将您的作业书签倒回之前的任何作业运行，从而使后续作业运行只再处理已做上标签的作业的信息。描述了允许您在两个书签之间运行作业的 `job-bookmark-pause` 选项的两个新子选项。有关更多信息，请参阅[使用任务书签来跟踪已处理的数据](https://docs.amazonaws.cn/glue/latest/dg/monitor-continuations.html)和[由 Amazon Glue 使用的特殊参数](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html)。 | 2019 年 10 月 22 日 | 
| [支持自定义 JDBC 证书以连接到数据存储](#doc-history) | 添加了有关 Amazon Glue 支持自定义 JDBC 证书以实现与 Amazon Glue 数据源或目标的 SSL 连接的信息。有关更多信息，请参阅[使用 Amazon Glue 控制台上的连接](https://docs.amazonaws.cn/glue/latest/dg/console-connections.html)。 | 2019 年 10 月 10 日 | 
| [支持 Python Wheel](#doc-history) | 添加了有关 Amazon Glue 支持 wheel 文件（以及 egg 文件）作为 Python shell 任务的依赖项的信息。有关更多信息，请参阅[提供您自己的 Python 库](https://docs.amazonaws.cn/glue/latest/dg/add-job-python.html#create-python-extra-library)。 | 2019 年 9 月 26 日 | 
| [支持 Amazon Glue 中的开发端点的版本控制](#doc-history) | 添加了有关在开发终端节点中定义 `Glue version` 的信息。`Glue version` 确定 Amazon Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息，请参阅[添加开发终端节点](https://docs.amazonaws.cn/glue/latest/dg/add-dev-endpoint.html)。 | 2019 年 9 月 19 日 | 
| [支持使用 Spark UI 监控 Amazon Glue](#doc-history) | 添加了有关使用 Apache Spark UI 监控和调试在 Amazon Glue 作业系统上运行的 Amazon Glue ETL 任务以及在 Amazon Glue 开发终端节点上运行的 Spark 应用程序的信息。有关更多信息，请参阅[使用 Spark UI 监控 Amazon Glue](https://docs.amazonaws.cn/glue/latest/dg/monitor-spark-ui.html)。 | 2019 年 9 月 19 日 | 
| [使用公有 Amazon Glue ETL 库，增强了进行本地 ETL 脚本开发的支持](#doc-history) | 更新了 Amazon Glue ETL 库内容以反映现在支持 Amazon Glue 版本 1.0。有关更多信息，请参阅[使用 Amazon Glue ETL 库在本地开发和测试 ETL 脚本](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-libraries.html)。 | 2019 年 9 月 18 日 | 
| [支持在运行任务时排除 Amazon S3 存储类](#doc-history) | 添加了有关在运行从 Amazon S3 中读取文件或分区的 Amazon Glue ETL 任务时排除 Amazon S3 存储类的信息。有关更多信息，请参阅[排除 Amazon S3 存储类](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-storage-classes.html)。 | 2019 年 8 月 29 日 | 
| [使用公有 Amazon Glue ETL 库，支持进行本地 ETL 脚本开发](#doc-history) | 添加了有关如何在本地开发和测试 Python 和 Scala ETL 脚本，而无需网络连接的信息。有关更多信息，请参阅[使用 Amazon Glue ETL 库在本地开发和测试 ETL 脚本](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-libraries.html)。 | 2019 年 8 月 28 日 | 
| [已知问题](#doc-history) | 添加了有关 Amazon Glue 中已知问题的信息。有关更多信息，请参阅 [Amazon Glue 的已知问题](https://docs.amazonaws.cn/glue/latest/dg/glue-known-issues.html)。 | 2019 年 8 月 28 日 | 
| [支持 Amazon Glue 中的机器学习转换](#doc-history) | 添加了有关 Amazon Glue 提供的用以创建自定义转换的机器学习功能的信息。您可以在创建作业时创建这些转换。有关更多信息，请参阅 [Amazon Glue 中的 Machine Learning 转换](https://docs.amazonaws.cn/glue/latest/dg/machine-learning.html)。 | 2019 年 8 月 8 日 | 
| [支持共享 Amazon Virtual Private Cloud](#doc-history) | 添加了有关 Amazon Glue 支持共享 Amazon Virtual Private Cloud 的信息。有关更多信息，请参阅[共享的 Amazon VPC](https://docs.amazonaws.cn/glue/latest/dg/shared-vpc.html)。 | 2019 年 8 月 6 日 | 
| [支持 Amazon Glue 中的版本控制](#doc-history) | 添加了有关在任务属性中定义 `Glue version` 的信息。Amazon Glue 版本确定 Amazon Glue 支持的 Apache Spark 和 Python 的版本。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2019 年 7 月 24 日 | 
| [支持开发终端节点的其他配置选项](#doc-history) | 针对具有内存密集型工作负载的开发终端节点，添加了有关配置选项的信息。您现在可以从两个新配置中进行选择，这两个新配置可为每个执行程序提供更多内存。有关更多信息，请参阅[在 Amazon Glue 控制台上使用开发终端节点](https://docs.amazonaws.cn/glue/latest/dg/console-development-endpoint.html)。 | 2019 年 7 月 24 日 | 
| [支持使用工作流执行提取、传输和加载 (ETL) 活动](#doc-history) | 添加了以下相关信息：使用称为工作流的新构造来设计可由 Amazon Glue 作为单个实体运行和跟踪的复杂的多任务提取、转换和加载（ETL）活动。有关更多信息，请参阅[使用 Amazon Glue 中的工作流执行复杂的 ETL 活动](https://docs.amazonaws.cn/glue/latest/dg/orchestrate-using-workflows.html)。 | 2019 年 6 月 20 日 | 
| [支持 Python Shell 任务中的 Python 3.6](#doc-history) | 增加了在 Python Shell 作业中对 Python 3.6 的支持的相关信息。您可以指定 Python 2.7 或 Python 3.6 作为作业属性。有关更多信息，请参阅[在 Amazon Glue 中添加 Python Shell 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-python.html)。 | 2019 年 6 月 5 日 | 
| [支持 virtual private cloud (VPC) 终端节点](#doc-history) | 添加了有关在 VPC 中通过接口终端节点直接连接到 Amazon Glue 的信息。当您使用 VPC 接口端点时，VPC 与 Amazon Glue 之间的通信完全在 Amazon 网络内安全进行。有关更多信息，请参阅[将 Amazon Glue 与接口 VPC 终端节点一起使用](https://docs.amazonaws.cn/glue/latest/dg/vpc-endpoint.html)。 | 2019 年 6 月 4 日 | 
| [支持对 Amazon Glue 任务进行实时的连续日志记录。](#doc-history) | 添加了有关在 CloudWatch 中启用和查看实时 Apache Spark 任务日志的信息，包括驱动程序日志、各个执行程序日志以及 Spark 任务进度栏。有关更多信息，请参阅 [Amazon Glue 任务的连续日志记录](https://docs.amazonaws.cn/glue/latest/dg/monitor-continuous-logging.html)。 | 2019 年 5 月 28 日 | 
| [支持将现有数据目录表作为爬网程序源](#doc-history) | 添加了有关将现有数据目录表的列表指定为爬网程序源的信息。然后，当新数据变为可用时，爬网程序可以检测对表架构的更改、更新表定义并注册新分区。有关更多信息，请参阅[爬网程序属性](https://docs.amazonaws.cn/glue/latest/dg/define-crawler.html)。 | 2019 年 5 月 10 日 | 
| [对于内存密集型任务支持额外的配置选项](#doc-history) | 针对具有内存密集型工作负载的 Apache Spark 任务，添加了有关配置选项的信息。您现在可以从两个新配置中进行选择，这两个新配置可为每个执行程序提供更多内存。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2019 年 4 月 5 日 | 
| [支持 CSV 自定义分类器](#doc-history) | 添加了有关使用自定义 CSV 分类器来推断各种类型的 CSV 数据的架构的信息。有关更多信息，请参阅[编写自定义分类器](https://docs.amazonaws.cn/glue/latest/dg/custom-classifier.html)。 | 2019 年 3 月 26 日 | 
| [支持 Amazon 资源标签](#doc-history) | 添加了有关使用 Amazon 资源标签来帮助您管理和控制对 Amazon Glue 资源的访问的信息。您可以在 Amazon Glue 中将 Amazon 资源标签分配给任务、触发器、终端节点和爬网程序。有关更多信息，请参阅 [Amazon Glue 中的 Amazon 标签](https://docs.amazonaws.cn/glue/latest/dg/monitor-tags.html)。 | 2019 年 3 月 20 日 | 
| [支持 Spark SQL 任务的数据目录](#doc-history) | 添加了有关配置您的 Amazon Glue 任务和开发终端节点以使用 Amazon Glue Data Catalog作为外部 Apache Hive 元存储的信息。这允许任务和开发终端节点直接对存储在 Amazon Glue Data Catalog 中的表运行 Apache Spark SQL 查询。有关更多信息，请参阅 [Spark SQL 任务的 Amazon Glue Data Catalog 支持](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-glue-data-catalog-hive.html)。 | 2019 年 3 月 14 日 | 
| [支持 Python Shell 任务](#doc-history) | 添加了有关 Python shell 任务和新字段 **Maximum capacity (最大容量)** 的信息。有关更多信息，请参阅[在 Amazon Glue 中添加 Python Shell 任务](https://docs.amazonaws.cn/glue/latest/dg/add-job-python.html)。 | 2019 年 1 月 18 日 | 
| [支持数据库和表发生更改时的通知](#doc-history) | 添加了有关为数据库、表和分区 API 调用的更改生成的事件的信息。您可以在 CloudWatch Events 中配置操作以响应这些事件。有关更多信息，请参阅[使用 CloudWatch Events 自动化 Amazon Glue](https://docs.amazonaws.cn/glue/latest/dg/automating-awsglue-with-cloudwatch-events.html)。 | 2019 年 1 月 16 日 | 
| [支持加密连接密码](#doc-history) | 添加了有关加密连接对象中所用密码的信息。有关更多信息，请参阅[加密连接密码](https://docs.amazonaws.cn/glue/latest/dg/encrypt-connection-passwords.html)。 | 2018 年 12 月 11 日 | 
| [对于资源级权限和基于资源的策略的支持](#doc-history) | 添加了有关将资源级权限和基于资源的策略用于 Amazon Glue 的信息。有关更多信息，请参阅 [Amazon Glue 中的安全性](https://docs.amazonaws.cn/glue/latest/dg/security-glue.html)中的主题。 | 2018 年 10 月 15 日 | 
| [支持 SageMaker AI 笔记本](#doc-history) | 添加了有关将 SageMaker AI 笔记本与 Amazon Glue 开发端点结合使用的信息。有关更多信息，请参阅[管理笔记本](https://docs.amazonaws.cn/glue/latest/dg/notebooks-with-glue.html)。 | 2018 年 10 月 5 日 | 
| [支持加密](#doc-history) | 添加了有关对 Amazon Glue 使用加密的信息。有关更多信息，请参阅[静态加密](https://docs.amazonaws.cn/glue/latest/dg/encryption-at-rest.html)、[传输中加密](https://docs.amazonaws.cn/glue/latest/dg/encryption-in-transit.html)和[在 Amazon Glue 中设置加密](https://docs.amazonaws.cn/glue/latest/dg/set-up-encryption.html)。 | 2018 年 8 月 24 日 | 
| [Apache Spark 任务指标支持](#doc-history) | 添加了有关使用 Apache Spark 指标的信息，以便更好地调试和分析 ETL 作业。您可以轻松跟踪运行时指标，例如读取和写入的字节数，驱动程序和执行程序的内存使用率和 CPU 负载，以及来自 Amazon Glue 控制台的执行程序之间的数据随机排序。有关更多信息，请参阅[使用 CloudWatch 指标监控 Amazon Glue](https://docs.amazonaws.cn/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html)、[监控和调试任务](https://docs.amazonaws.cn/glue/latest/dg/monitor-profile-glue-job-cloudwatch-metrics.html)以及[在 Amazon Glue 控制台上处理任务](https://docs.amazonaws.cn/glue/latest/dg/console-jobs.html)。 | 2018 年 7 月 13 日 | 
| [支持将 DynamoDB 作为数据源](#doc-history) | 添加了有关网络爬取 DynamoDB 以及将其用作 ETL 任务的数据源的信息。有关更多信息，请参阅[使用爬网程序编录表](https://docs.amazonaws.cn/glue/latest/dg/add-crawler.html)和[连接参数](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-connect.html)。 | 2018 年 7 月 10 日 | 
| [更新以创建笔记本服务器过程](#doc-history) | 更新了有关如何在与开发终端节点相关联的 Amazon EC2 实例上创建笔记本服务器的信息。有关更多信息，请参阅[创建与开发终端节点相关联的笔记本服务器](https://docs.amazonaws.cn/glue/latest/dg/dev-endpoint-notebook-server-considerations.html)。 | 2018 年 7 月 9 日 | 
| [现在可通过 RSS 更新](#doc-history) | 您现在可以订阅 RSS 源来接收有关 *Amazon Glue 开发人员指南*更新的通知。 | 2018 年 25 月 6 日 | 
| [支持任务的延迟通知](#doc-history) | 添加了有关在任务运行时配置延迟阈值的信息。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2018 年 5 月 25 日 | 
| [配置爬网程序以追加新列](#doc-history) | 添加了有关爬网程序的新配置选项 MergeNewColumns 的信息。有关更多信息，请参阅[配置爬网程序](https://docs.amazonaws.cn/glue/latest/dg/crawler-configuration.html)。 | 2018 年 5 月 7 日 | 
| [支持任务超时](#doc-history) | 添加了有关在任务运行时设置超时阈值的信息。有关更多信息，请参阅[在 Amazon Glue 中添加任务](https://docs.amazonaws.cn/glue/latest/dg/add-job.html)。 | 2018 年 4 月 10 日 | 
| [支持 Scala ETL 脚本并基于其他运行状态触发任务](#doc-history) | 添加了有关使用 Scala 作为 ETL 编程语言的信息。此外，触发器 API 现在还支持在满足任意条件时触发 (除所有条件之外)。此外，还可以基于“失败”或“已停止”的任务运行触发任务 (除“已成功”的任务运行之外)。 | 2018 年 1 月 12 日 | 

## 早期更新
<a name="WhatsNew.earlier-updates"></a>

下表描述 2018 年 1 月之前发布的每个 *Amazon Glue 开发人员指南*中的重要变化。


****  

| 更改 | 描述 | 日期 | 
| --- | --- | --- | 
| 支持 XML 数据源和新的爬网程序配置选项 | 添加了有关为分区更改分类 XML 数据源和新爬网程序选项的信息。 | 2017 年 11 月 16 日 | 
| 新转换、对其他 Amazon RDS 数据库引擎的支持以及开发终端节点增强功能 | 添加了有关映射和筛选转换、对 Amazon RDS Microsoft SQL Server 和 Amazon RDS Oracle 的支持以及开发终端节点的新功能的信息。 | 2017 年 9 月 29 日 | 
| Amazon Glue 初始版本 | 这是 Amazon Glue 开发人员指南的初始版本。 | 2017 年 8 月 14 日 | 