本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建亚马逊MWAA环境
Apache Airflow 的亚马逊托管工作流程使用与 Apache 相同的开源 Apache Airflow 和用户界面在你所选版本的环境中设置 Apache Airflow。本指南描述了创建 Amazon MWAA 环境的步骤。
开始前的准备工作
-
创建环境后,无法修改您为环境指定的VPC网络。
-
您需要将 Amazon S3 存储桶配置为阻止所有公开访问并启用存储桶版本控制。
-
您需要一个拥有使用 Amazon MWAA 的权限和 Amazon Identity and Access Management (IAM) 中创建IAM角色的权限的 Amazon 账户。如果您为 Apache Airflow 网络服务器选择专用网络访问模式,该模式限制了亚马逊内部的 Apache Airflow 访问权限VPC,则需要获得权限才能IAM创建亚马逊终端节点。VPC
Apache Airflow 版本
Amazon MWAA 上支持以下 Apache Airflow 版本。
注意
-
从 Apache Airflow v2.2 开始,亚马逊MWAA支持直接在 Apache Airflow 网络服务器上安装 Python 要求、提供程序包和自定义插件。
-
从 Apache Airflow v2.7.2 开始,要求文件必须包含一条
--constraint
语句。如果您未提供约束条件,亚马逊MWAA将为您指定一个约束条件,以确保您的要求中列出的软件包与您正在使用的 Apache Airflow 版本兼容。有关在需求文件中设置约束条件的更多信息,请参阅安装 Python 依赖项。
Apache Airflow 版本 | Apache Airflow 指南 | Apache Airflow 约束条件 | Python 版本 |
---|---|---|---|
有关迁移自行管理的 Apache Airflow 部署或迁移现有 Amazon MWAA 环境的更多信息,包括备份元数据数据库的说明,请参阅《亚马逊MWAA迁移指南》。
创建环境
以下部分介绍创建 Amazon MWAA 环境的步骤。
步骤 1:指定详细信息
要指定环境的详细信息,请执行以下操作
-
打开 Amazon MWAA
控制台。 -
使用 Amazon 区域选择器选择您的区域。
-
选择创建环境。
-
在指定详细信息页面上,在环境详细信息下:
-
在名称中为环境输入一个独有的名称。
-
在 Airflow 版本中选择 Apache Airflow 版本。
注意
如果未指定任何值,则默认为最新的 Apache Airflow 版本。可用的最新版本是。
-
-
在 Amazon S3 中的DAG代码下指定以下内容:
-
S3 Bucket。选择 “浏览 S3” 并选择您的亚马逊 S3 存储桶,或者输入 Amazon S3 URI。
-
DAGs文件夹。选择 “浏览 S3”,然后在 Amazon S3 存储桶中选择
dags
文件夹,或者输入 Amazon S3 URI。 -
插件文件-可选。选择 “浏览 S3”,然后选择亚马逊 S3 存储桶上的
plugins.zip
文件,或者输入 Amazon S3 URI。 -
要求文件-可选。选择 “浏览 S3”,然后选择亚马逊 S3 存储桶上的
requirements.txt
文件,或者输入 Amazon S3 URI。 -
启动脚本文件-可选,选择 “浏览” S3然后选择您的 Amazon S3 存储桶上的脚本文件,或者输入 Amazon S3 URI。
-
-
选择下一步。
步骤 2:配置高级设置
配置高级设置
-
在配置高级设置页面上,在联网下:
-
选择您的亚马逊VPC。
此步骤将填充您的 Amazon 中的两个私有子网。VPC
-
-
在 Web 服务器访问下,选择您首选的 Apache Airflow 访问模式:
-
私有网络。这将Apache Airflow UI的访问权限限制为亚马逊内部VPC已被授权访问您的环境IAM策略的用户。您需要获得权限才能为此步骤创建 Amazon VPC 终端节点。
注意
如果 Apache Airflow UI 只能在公司网络中访问,并且不需要访问公共存储库即可进行 Web 服务器要求安装,请选择私有网络选项。如果您选择此访问模式选项,则需要创建一种机制来访问亚马逊上的 Apache Airflow Web 服务器。VPC有关更多信息,请参阅 访问 Apache Airflow Web 服务器的 VPC 端点(私有网络访问)。
-
公有网络。这允许被授予您环境IAM策略访问权限的用户通过互联网访问 Apache Airflow 用户界面。
-
-
在 “安全组” 下,选择用于保护您的 Amazon 的安全组VPC:
-
默认情况下,Amazon MWAA 会在您的 Amazon 中创建一个安全组,并在创建新安全组中VPC使用特定的入站和出站规则。
-
可选。取消选中创建新安全组中的复选框可选择最多 5 个安全组。
注意
现有 Amazon VPC 安全组必须配置特定的入站和出站规则,才能允许网络流量。要了解更多信息,请参阅 您在 Amazon VPC 上的安全 MWAA。
-
-
在环境类下,选择一个环境类。
我们建议选择支持您的工作负载所需的最小尺寸。您可以随时更改环境类。
-
对于最大工作线程计数,请指定要在环境中运行的 Apache Airflow 工作线程的最大数量。
有关更多信息,请参阅 高性能用例示例。
-
指定最大网络服务器数量和最小网络服务器数量,以配置亚马逊如何在您的环境中MWAA扩展 Apache Airflow Web 服务器。
有关 Web 服务器自动缩放的更多信息,请参阅配置 Amazon MWAA 网络服务器自动扩展。
-
在加密下,选择一个数据加密选项:
-
默认情况下,Amazon MWAA 使用 Amazon 自有密钥来加密您的数据。
-
可选。选择 “自定义加密设置(高级)” 以选择其他 Amazon KMS 密钥。如果您选择在此步骤中指定客户管理的密钥,则必须指定 Amazon KMS 密钥 ID 或ARN。Amazon KMS A@@ mazon 不支持别名和多区域密钥。MWAA如果您在 Amazon S3 存储桶上指定了用于服务器端加密的 Amazon S3 密钥,则必须为您的亚马逊MWAA环境指定相同的密钥。
注意
您必须拥有该密钥的权限才能在 Amazon MWAA 控制台上选择该密钥。您还必须通过附上中所述的政策MWAA,授予 Amazon 使用密钥的权限。附加密钥政策
-
-
推荐。在 “监控” 下,为 Airflow 日志配置选择一个或多个日志类别,将 Apache Airflow 日志发送到日志: CloudWatch
-
Airflow 任务日志。选择要发送到 “登录日志” 级别的 Apache Airflow 任务 CloudWatch 日志的类型。
-
Airflow Web 服务器日志。选择要发送到 “登录日志” 级别的 Apache Airflow Web 服务器 CloudWatch 日志的类型。
-
Airflow 计划程序日志。选择要发送到 “登录日志” 级别的 Apache Airflow 调度程序 CloudWatch 日志的类型。
-
Airflow 工作线程日志。选择要发送到 “登录日志” 级别的 Apache Airflow 工作 CloudWatch 日志的类型。
-
气流DAG处理日志。选择要发送到 “登录日志” 级别的 Apache Airflow DAG 处理 CloudWatch 日志的类型。
-
-
可选。对于 Airflow 配置选项,选择添加自定义配置选项。
您可以从 Apache Airflow 版本的 Apache Airflow 配置选项的建议下拉列表中进行选择,也可以指定自定义配置选项。例如
core.default_task_retries
:3
。 -
可选。在标签下,选择添加新标记,将标签与环境相关联。例如,
Environment
:Staging
。 -
在权限下,选择一个执行角色。
-
默认情况下,Amazon MWAA 会在创建新角色中创建执行角色。您必须拥有创建IAM角色的权限才能使用此选项。
-
可选。选择输入角色ARN以输入现有执行角色的 Amazon 资源名称 (ARN)。
-
-
选择下一步。
步骤 3:查看和创建
要查看环境摘要,请执行以下操作
-
查看环境摘要,选择创建环境。
注意
创建环境大约需要二十到三十分钟。