什么是 Amazon Managed Workflows for Apache Airflow? - Amazon Managed Workflows for Apache Airflow
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Managed Workflows for Apache Airflow?

使用适用于 Apache Airflow 的亚马逊托管工作流程(A pache Airflow 的托管编排服务)在云中大规模设置和运营数据管道。Apache Airflow 是一种开源工具,用于以编程方式编写、调度和监视统称为工作流程的各种流程和任务序列。

借助 AmazonMWAA,您可以使用 Apache Airflow 和 Python 来创建工作流程,而无需管理底层基础设施以实现可扩展性、可用性和安全性。Amazon MWAA 会自动扩展其工作流程执行能力以满足您的需求,并与 Amazon 安全服务集成,帮助您快速、安全地访问数据。

功能

查看以下功能,了解亚马逊MWAA如何简化您的 Apache Airflow 工作流程的管理。

  • 自动气流设置 — 在创建亚马逊环境时,通过选择 Apache Airflow 版本来快速设置 Apache Airflow。MWAA亚马逊使用相同的 Apache Airflow 用户界面和可以在互联网上下载的开源代码为您MWAA设置 Apache Airflow。

  • 自动扩缩— 设置在环境中运行的最小和最大工作线程数来自动扩缩 Apache Airflow 工作线程。Amazon 会MWAA监控您环境中的工作人员,并使用其自动缩放组件添加工作人员以满足需求,直至达到您定义的最大工作线程数量。

  • 内置身份验证-通过在 () 中定义访问控制策略,为 Apache Airflow Web 服务器启用基于角色的身份验证和授权。 Amazon Identity and Access Management IAMApache Airflow W orkers 采用这些策略来安全访问服务。 Amazon

  • 内置安全性 — Apache Airflow W or k ers 和 Scheduler 在亚马逊的MWAA亚马逊上运行。VPC数据也会使用自动加密 Amazon Key Management Service,因此默认情况下您的环境是安全的。

  • 公有或私有访问模式— 使用私有或公有访问模式访问 Apache Airflow Web 服务器公共网络访问模式使用可通过互联网访问的 Apache Airflow Web 服务器的VPC端点。私有网络访问模式使用可在您访问的 Apache Airflow Web 服务器的VPC端点。VPC在这两种情况下,Apache Airflow 用户的访问权限都由您在 Amazon Identity and Access Management (IAM) 和中定义的访问控制策略控制。 Amazon SSO

  • 简化了升级和补丁 — 亚马逊定期MWAA提供新版本的 Apache Airflow。Amazon MWAA 团队将更新和修补这些版本的映像。

  • 工作流程监控在亚马逊 CloudWatch 中查看 Apache Airflow 日志和 Apache 气流指标,无需其他第三方工具即可识别 Apache Airflow 任务延迟或工作流程错误。Amazon MWAA 会自动向发送环境指标(如果启用)Apache Airflow 日志。 CloudWatch

  • Amazon 集成 — 亚马逊MWAA支持与亚马逊 Amazon Batch Athena、亚马逊、亚马逊 DynamoDB CloudWatch、亚马逊、亚马逊、 Amazon DataSync亚马逊EMR、Amaz Amazon Fargate on Data Amazon Glue Fireh Amazon Lambda ose、、Amazon Redshift、亚马逊、SQS亚马逊、SNS SageMaker亚马逊和亚马逊 S3 以及数百个内置和社区创建的操作员和传感器的开源集成。EKS

  • 员工车队 — Amaz MWAA on 支持使用集装箱按需扩展员工队伍,并使用 Amazon on 减少调度程序的中断。ECS Amazon Fargate支持在 Amazon ECS 容器上调用任务的操作员,以及在 Kubernetes 集群上创建和运行 Pod 的 Kubernetes 操作员。

架构

外箱中包含的所有组件(如下图所示)在您的账户中显示为单个 Amazon MWAA 环境。Apache Airflow Scheduler 和 W or kers 是连接到您环境的 Ama VPC zon 私有子网的 Amazon Fargate 容器。每个环境都有自己的 Apache Airflow 元数据数据库,由 Amazon 该数据库管理,调度程序 Workers Farg ate 容器可通过私有保护的端点访问该元数据库。VPC

亚马逊 CloudWatch、亚马逊 S3 SQS、亚马逊和 Amazon KMS 独立于亚马MWAA逊,需要从 Fargate 容器中的 Apache Airflow S cheduler 和 Workers 中进行访问。

Apache Airflow Web 服务器可以通过互联网通过选择公共网络 Apache Airflow 访问模式进行访问,也可以通过选择专用网络 Apache Airflow 访问模式在您的VPC内部访问 Apache Airflow Web 服务器。在这两种情况下,Apache Airflow 用户的访问权限都由您在 Amazon Identity and Access Management () IAM 中定义的访问控制策略控制。

注意

多个 Apache Airflow计划程序仅在 Apache Airflow v2 及更高版本中可用。要详细了解 Apache Airflow 任务生命周期,请参阅《Apache Airflow 参考指南》概念

此图显示了 Amazon MWAA 环境的架构。

集成

活跃且不断发展的 Apache Airflow 开源社区为运营商(简化服务连接的插件)提供了 Apache Airflow 与服务的集成。 Amazon 这包括亚马逊 S3、Amazon Redshift EMR Amazon Batch、亚马逊和亚马逊等服务 SageMaker,以及其他云平台上的服务。

在亚马逊上使用 Apache Airflow MWAA 完全支持与 Amazon 服务和流行的第三方工具(例如 Apache Hadoop、Presto、Hive 和 Spark)集成,以执行数据处理任务。亚马逊MWAA致力于保持与Apache Airflow的兼容性API,亚马逊MWAA打算为 Amazon 服务提供可靠的集成并将其提供给社区,并参与社区功能开发。

有关代码示例,请参阅 Amazon MWAA 的代码示例

支持的版本

亚马逊MWAA支持多个版本的 Apache Airflow。有关我们支持的 Apache Airflow 版本以及每个版本中包含的 Apache Airflow 组件的更多信息,请参阅 Amazon MWAA 上的 Apache Airflow 版本

接下来做什么?

  • 从一个 Amazon CloudFormation 模板开始,该模板可为您的 Airflow DAGs 和支持文件创建 Amazon S3 存储桶、VPC具有公共路由功能的 Amazon 以及在中Amazon MWAA 的快速入门教程创建亚马逊MWAA环境。

  • 通过为您的 Airflow DAGs 和支持文件创建 Amazon S3 存储桶,从三个 Amazon VPC 联网选项中进行选择,然后在中创建亚马逊MWAA环境,逐步入门。开始使用 Amazon MWAA