创建亚马逊MWAA环境 - Amazon Managed Workflows for Apache Airflow
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建亚马逊MWAA环境

Apache Airflow 的亚马逊托管工作流程使用与 Apache 相同的开源 Apache Airflow 和用户界面在你所选版本的环境中设置 Apache Airflow。本指南描述了创建 Amazon MWAA 环境的步骤。

开始前的准备工作

  • 创建环境后,无法修改您为环境指定的VPC网络

  • 您需要将 Amazon S3 存储桶配置为阻止所有公开访问并启用存储桶版本控制

  • 您需要一个拥有使用 Amazon MWAA 的权限和 Amazon Identity and Access Management (IAM) 中创建IAM角色的权限的 Amazon 账户。如果您为 Apache Airflow 网络服务器选择专用网络访问模式,该模式限制了亚马逊内部的 Apache Airflow 访问权限VPC,则需要获得权限才能IAM创建亚马逊终端节点。VPC

Apache Airflow 版本

Amazon MWAA 上支持以下 Apache Airflow 版本。

注意
  • 从 Apache Airflow v2.2 开始,亚马逊MWAA支持直接在 Apache Airflow 网络服务器上安装 Python 要求、提供程序包和自定义插件。

  • 从 Apache Airflow v2.7.2 开始,要求文件必须包含一条 --constraint 语句。如果您未提供约束条件,亚马逊MWAA将为您指定一个约束条件,以确保您的要求中列出的软件包与您正在使用的 Apache Airflow 版本兼容。

    有关在需求文件中设置约束条件的更多信息,请参阅安装 Python 依赖项

有关迁移自行管理的 Apache Airflow 部署或迁移现有 Amazon MWAA 环境的更多信息,包括备份元数据数据库的说明,请参阅《亚马逊MWAA迁移指南》。

创建环境

以下部分介绍创建 Amazon MWAA 环境的步骤。

步骤 1:指定详细信息

要指定环境的详细信息,请执行以下操作
  1. 打开 Amazon MWAA 控制台。

  2. 使用 Amazon 区域选择器选择您的区域。

  3. 选择创建环境

  4. 指定详细信息页面上,在环境详细信息下:

    1. 名称中为环境输入一个独有的名称。

    2. Airflow 版本中选择 Apache Airflow 版本。

      注意

      如果未指定任何值,则默认为最新的 Apache Airflow 版本。可用的最新版本是。

  5. Amazon S3 中的DAG代码下指定以下内容:

    1. S3 Bucket。选择 “浏览 S3” 并选择您的亚马逊 S3 存储桶,或者输入 Amazon S3 URI。

    2. DAGs文件夹。选择 “浏览 S3”,然后在 Amazon S3 存储桶中选择dags文件夹,或者输入 Amazon S3 URI。

    3. 插件文件-可选。选择 “浏览 S3”,然后选择亚马逊 S3 存储桶上的plugins.zip文件,或者输入 Amazon S3 URI。

    4. 要求文件-可选。选择 “浏览 S3”,然后选择亚马逊 S3 存储桶上的requirements.txt文件,或者输入 Amazon S3 URI。

    5. 启动脚本文件-可选,选择 “浏览” S3然后选择您的 Amazon S3 存储桶上的脚本文件,或者输入 Amazon S3 URI。

  6. 选择下一步

步骤 2:配置高级设置

配置高级设置
  1. 配置高级设置页面上,在联网下:

    1. 选择您的亚马逊VPC

      此步骤将填充您的 Amazon 中的两个私有子网。VPC

  2. Web 服务器访问下,选择您首选的 Apache Airflow 访问模式

    1. 私有网络。这将Apache Airflow UI的访问权限限制为亚马逊内部VPC已被授权访问您的环境IAM策略的用户。您需要获得权限才能为此步骤创建 Amazon VPC 终端节点。

      注意

      如果 Apache Airflow UI 只能在公司网络中访问,并且不需要访问公共存储库即可进行 Web 服务器要求安装,请选择私有网络选项。如果您选择此访问模式选项,则需要创建一种机制来访问亚马逊上的 Apache Airflow Web 服务器。VPC有关更多信息,请参阅 访问 Apache Airflow Web 服务器的 VPC 端点(私有网络访问)

    2. 公有网络。这允许被授予您环境IAM策略访问权限的用户通过互联网访问 Apache Airflow 用户界面。

  3. 在 “安全组” 下,选择用于保护您的 Amazon 的安全组VPC:

    1. 默认情况下,Amazon MWAA 会在您的 Amazon 中创建一个安全组,并在创建新安全组中VPC使用特定的入站和出站规则。

    2. 可选。取消选中创建新安全组中的复选框可选择最多 5 个安全组。

      注意

      现有 Amazon VPC 安全组必须配置特定的入站和出站规则,才能允许网络流量。要了解更多信息,请参阅 您在 Amazon VPC 上的安全 MWAA

  4. 环境类下,选择一个环境类

    我们建议选择支持您的工作负载所需的最小尺寸。您可以随时更改环境类。

  5. 对于最大工作线程计数,请指定要在环境中运行的 Apache Airflow 工作线程的最大数量。

    有关更多信息,请参阅 高性能用例示例

  6. 指定最大网络服务器数量和最小网络服务器数量,以配置亚马逊如何在您的环境中MWAA扩展 Apache Airflow Web 服务器。

    有关 Web 服务器自动缩放的更多信息,请参阅配置 Amazon MWAA 网络服务器自动扩展

  7. 加密下,选择一个数据加密选项:

    1. 默认情况下,Amazon MWAA 使用 Amazon 自有密钥来加密您的数据。

    2. 可选。选择 “自定义加密设置(高级)” 以选择其他 Amazon KMS 密钥。如果您选择在此步骤中指定客户管理的密钥,则必须指定 Amazon KMS 密钥 ID 或ARN。Amazon KMS A@@ mazon 不支持别名和多区域密钥。MWAA如果您在 Amazon S3 存储桶上指定了用于服务器端加密的 Amazon S3 密钥,则必须为您的亚马逊MWAA环境指定相同的密钥。

      注意

      您必须拥有该密钥的权限才能在 Amazon MWAA 控制台上选择该密钥。您还必须通过附上中所述的政策MWAA,授予 Amazon 使用密钥的权限。附加密钥政策

  8. 推荐。在 “监控” 下,为 Airflow 日志配置选择一个或多个日志类别,将 Apache Airflow 日志发送到日志: CloudWatch

    1. Airflow 任务日志。选择要发送到 “登录日志” 级别的 Apache Airflow 任务 CloudWatch 日志的类型。

    2. Airflow Web 服务器日志。选择要发送到 “登录日志” 级别的 Apache Airflow Web 服务器 CloudWatch 日志的类型。

    3. Airflow 计划程序日志选择要发送到 “登录日志” 级别的 Apache Airflow 调度程序 CloudWatch 日志的类型。

    4. Airflow 工作线程日志。选择要发送到 “登录日志” 级别的 Apache Airflow 工作 CloudWatch 日志的类型。

    5. 气流DAG处理日志。选择要发送到 “登录日志” 级别的 Apache Airflow DAG 处理 CloudWatch 日志的类型。

  9. 可选。对于 Airflow 配置选项,选择添加自定义配置选项

    您可以从 Apache Airflow 版本的 Apache Airflow 配置选项的建议下拉列表中进行选择,也可以指定自定义配置选项。例如 core.default_task_retries : 3

  10. 可选。标签下,选择添加新标记,将标签与环境相关联。例如,EnvironmentStaging

  11. 权限下,选择一个执行角色。

    1. 默认情况下,Amazon MWAA 会在创建角色中创建执行角色。您必须拥有创建IAM角色的权限才能使用此选项。

    2. 可选。选择输入角色ARN以输入现有执行角色的 Amazon 资源名称 (ARN)。

  12. 选择下一步

步骤 3:查看和创建

要查看环境摘要,请执行以下操作
  • 查看环境摘要,选择创建环境

    注意

    创建环境大约需要二十到三十分钟。