部署适用于 Lustre 的 FSx 驱动程序 - Amazon EKS
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

帮助改进此页面

要帮助改进本用户指南,请选择位于每个页面右侧窗格中的在 GitHub 上编辑此页面链接。

部署适用于 Lustre 的 FSx 驱动程序

本主题演示如何将适用于 Lustre 的 FSx CSI 驱动程序部署到 Amazon EKS 集群,以及验证驱动程序是否正常工作。建议使用最新版本的驱动程序。有关可用版本,请参阅 GitHub 上的 CSI Specification Compatibility Matrix(CSI 规范兼容性矩阵)。

注意

Fargate 或 Amazon EKS 混合节点功能均不支持该驱动程序。

有关可用参数的详细说明和演示驱动程序功能的完整示例,请参阅 GitHub 上的 FSx for Lustre Container Storage Interface (CSI) driver 项目。

您必须:

  • 在您的设备或 Amazon CloudShell 上安装和配置 Amazon 命令行界面(Amazon CLI)的版本 2.12.3 或更高版本,或版本 1.27.160 或更高版本。要查看当前版本,请使用 aws --version | cut -d / -f2 | cut -d ' ' -f1yumapt-get 或适用于 macOS 的 Homebrew 等软件包管理器通常比 Amazon CLI 的最新版本落后几个版本。要安装最新版本,请参阅《Amazon 命令行界面用户指南》中的安装使用 aws configure 快速配置。Amazon CloudShell 中安装的 Amazon CLI 版本也可能比最新版本落后几个版本。要对其进行更新,请参阅《Amazon CloudShell 用户指南》中的将 Amazon CLI 安装到您的主目录

  • 您的设备或 Amazon CloudShell 上安装 0.207.0 版或更高版本的 eksctl 命令行工具。要安装或更新 eksctl,请参阅 eksctl 文档中的 Installation

  • 您的设备或 Amazon CloudShell 上安装了 kubectl 命令行工具。该版本可以与集群的 Kubernetes 版本相同,或者最多早于或晚于该版本一个次要版本。例如,如果您的集群版本为 1.29,则可以将 kubectl1.281.291.30 版本与之配合使用。要安装或升级 kubectl,请参阅 设置 kubectl 和 eksctl

以下步骤可帮助您使用 FSx for Lustre CSI 驱动程序创建简单的测试集群,以便您了解其工作原理。我们不建议将测试集群用于生产工作负载。在本教程中,我们建议使用 example values,除非有说明要替换它们。您可以在完成生成集群的步骤时替换任何 example value。我们建议您在同一个终端中完成所有步骤,因为这些步骤中设置并使用了变量,而且这些变量不会存在于不同的终端中。

第 1 步:部署适用于 Lustre 的 FSx CSI 驱动程序

  1. 设置一些要在其余步骤中使用的变量。请将 my-csi-fsx-cluster 替换为要创建的测试集群的名称,并将 region-code 替换为要在其中创建测试集群的 Amazon 区域。

    export cluster_name=my-csi-fsx-cluster export region_code=region-code
  2. 创建测试集群。

    eksctl create cluster \ --name $cluster_name \ --region $region_code \ --with-oidc \ --ssh-access \ --ssh-public-key my-key

    集群预配置需要几分钟时间。在集群创建过程中,您将看到几行输出。输出的最后一行类似于以下示例行。

    [✓] EKS cluster "my-csi-fsx-cluster" in "region-code" region is ready
  3. 使用以下命令为驱动程序创建一个 Kubernetes 服务账户,并将 AmazonFSxFullAccess Amazon 托管式策略附加到该服务账户。

    eksctl create iamserviceaccount \ --name fsx-csi-controller-sa \ --namespace kube-system \ --cluster $cluster_name \ --attach-policy-arn arn:aws-cn:iam::aws:policy/AmazonFSxFullAccess \ --approve \ --role-name AmazonEKSFSxLustreCSIDriverFullAccess \ --region $region_code

    创建服务账户时,您将看到几行输出。输出的最后一行类似于以下行。

    [ℹ] 1 task: { 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/fsx-csi-controller-sa", create serviceaccount "kube-system/fsx-csi-controller-sa", } } [ℹ] building iamserviceaccount stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] deploying stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] waiting for CloudFormation stack "eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa" [ℹ] created serviceaccount "kube-system/fsx-csi-controller-sa"

    记录已部署的 Amazon CloudFormation 堆栈的名称。在上面的示例输出中,堆栈的名称为 eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa

  4. 使用以下命令部署驱动程序。将 release-X.XX 替换为所需的分支。不支持主分支,因为它可能包含与当前发布的稳定版本驱动程序不兼容的即将推出的功能。建议使用最新发布的版本。有关分支的列表,请参阅 GitHub 上的 aws-fsx-csi-driver Branches

    注意

    您可以在 GitHub 上的 aws-fsx-csi-driver/deploy/kubernetes/overlays/stable 中查看将应用的内容。

    kubectl apply -k "github.com/kubernetes-sigs/aws-fsx-csi-driver/deploy/kubernetes/overlays/stable/?ref=release-X.XX"

    示例输出如下。

    serviceaccount/fsx-csi-controller-sa created serviceaccount/fsx-csi-node-sa created clusterrole.rbac.authorization.k8s.io/fsx-csi-external-provisioner-role created clusterrole.rbac.authorization.k8s.io/fsx-external-resizer-role created clusterrolebinding.rbac.authorization.k8s.io/fsx-csi-external-provisioner-binding created clusterrolebinding.rbac.authorization.k8s.io/fsx-csi-resizer-binding created deployment.apps/fsx-csi-controller created daemonset.apps/fsx-csi-node created csidriver.storage.k8s.io/fsx.csi.aws.com created
  5. 记录所创建角色的 ARN。如果您早些时候没有注意到它并且没有在 Amazon CLI 输出中再提供它,您可以执行以下操作以在 Amazon Web Services Management Console中查看它。

    1. 打开 Amazon CloudFormation 控制台

    2. 确保将控制台设置为您在其中创建 IAM 角色的 Amazon 区域,然后选择堆栈

    3. 选择名为 eksctl-my-csi-fsx-cluster-addon-iamserviceaccount-kube-system-fsx-csi-controller-sa 的堆栈。

    4. 选择 Outputs(输出)选项卡。Role1 ARN 列于 Outputs(1)页面上。

  6. 使用以下命令修补驱动程序部署以添加之前创建的服务账户。将 ARN 替换为您记下的 ARN。请将 111122223333 替换为您的账户 ID。

    kubectl annotate serviceaccount -n kube-system fsx-csi-controller-sa \ eks.amazonaws.com/role-arn=arn:aws-cn:iam::111122223333:role/AmazonEKSFSxLustreCSIDriverFullAccess --overwrite=true

    示例输出如下。

    serviceaccount/fsx-csi-controller-sa annotated

第 2 步:部署存储类、持久卷声明和示例应用程序

此过程利用 FSx for Lustre Container Storage Interface (CSI) driver GitHub 存储库来使用动态预置的 FSx for Lustre 卷。

  1. 注意集群的安全组。您可以在 Amazon Web Services Management Console中的联网部分下或通过使用以下 Amazon CLI 命令来查看它。

    aws eks describe-cluster --name $cluster_name --query cluster.resourcesVpcConfig.clusterSecurityGroupId
  2. 根据《Amazon FSx for Lustre 用户指南》中的 Amazon VPC 安全组显示的标准,为您的 Amazon FSx 文件系统创建安全组。对于 VPC,选择 Networking(联网)部分下显示的集群的 VPC。对于“与 Lustre 客户端关联的安全组”,请使用您的集群安全组。您可以单独保留出站规则以允许所有流量

  3. 使用下面的命令下载存储类清单。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/storageclass.yaml
  4. 编辑 storageclass.yaml 文件的参数部分。将所有 example value 替换为您自己的值。

    parameters: subnetId: subnet-0eabfaa81fb22bcaf securityGroupIds: sg-068000ccf82dfba88 deploymentType: PERSISTENT_1 automaticBackupRetentionDays: "1" dailyAutomaticBackupStartTime: "00:00" copyTagsToBackups: "true" perUnitStorageThroughput: "200" dataCompressionType: "NONE" weeklyMaintenanceStartTime: "7:09:00" fileSystemTypeVersion: "2.12"
    • subnetId – 应在其中创建 Amazon FSx for Lustre 文件系统的子网 ID。并非所有可用区都支持 Amazon FSx for Lustre。打开 https://console.aws.amazon.com/fsx/ 中 Amazon FSx for Lustre 控制台,确认您要使用的子网是否位于支持的可用区中。该子网可以包含您的节点,也可以是不同的子网或 VPC:

      • 您可以通过在 Compute(计算)部分下选择节点组来在 Amazon Web Services Management Console 中检查节点子网。

      • 如果您指定的子网不是节点所在的子网,则必须已连接 VPC,并且必须确保已在您的安全组中打开必要的端口。

    • securityGroupIds – 您为文件系统创建的安全组的 ID。

    • deploymentType(可选)– 文件系统部署类型。有效值为 SCRATCH_1SCRATCH_2PERSISTENT_1PERSISTENT_2。有关部署类型的更多信息,请参阅创建 Amazon FSx for Lustre 文件系统

    • 其他参数(可选) – 有关其他参数的信息,请参阅 GitHub 上的编辑 StorageClass

  5. 创建存储类清单。

    kubectl apply -f storageclass.yaml

    示例输出如下。

    storageclass.storage.k8s.io/fsx-sc created
  6. 下载持久卷注册清单。

    curl -O https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/claim.yaml
  7. (可选)编辑 claim.yaml 文件。根据您的存储需求和上一步选择的 deploymentType,将 1200Gi 更改为下面列出的增量值之一。

    storage: 1200Gi
    • SCRATCH_2PERSISTENT1.2 TiB2.4 TiB,或 2.4TiB 之上 2.4TiB 的增量。

    • SCRATCH_11.2 TiB2.4 TiB3.6 TiB,或 3.6TiB 之上 3.6TiB 的增量。

  8. 创建持久卷注册。

    kubectl apply -f claim.yaml

    示例输出如下。

    persistentvolumeclaim/fsx-claim created
  9. 确认已预配置文件系统。

    kubectl describe pvc

    示例输出如下。

    Name: fsx-claim Namespace: default StorageClass: fsx-sc Status: Bound [...]
    注意

    Status 可能会在 5-10 分钟内显示为 Pending,然后才会更改为 Bound。在 Status 变成 Bound 之前,请勿继续执行下一步。如果 Status 显示 Pending 10 分钟以上,使用 Events 中的警告消息作为解决任何问题的参考。

  10. 部署示例应用程序。

    kubectl apply -f https://raw.githubusercontent.com/kubernetes-sigs/aws-fsx-csi-driver/master/examples/kubernetes/dynamic_provisioning/specs/pod.yaml
  11. 验证示例应用程序正在运行。

    kubectl get pods

    示例输出如下。

    NAME READY STATUS RESTARTS AGE fsx-app 1/1 Running 0 8s
  12. 验证应用程序是否正确挂载了文件系统。

    kubectl exec -ti fsx-app -- df -h

    示例输出如下。

    Filesystem Size Used Avail Use% Mounted on overlay 80G 4.0G 77G 5% / tmpfs 64M 0 64M 0% /dev tmpfs 3.8G 0 3.8G 0% /sys/fs/cgroup 192.0.2.0@tcp:/abcdef01 1.1T 7.8M 1.1T 1% /data /dev/nvme0n1p1 80G 4.0G 77G 5% /etc/hosts shm 64M 0 64M 0% /dev/shm tmpfs 6.9G 12K 6.9G 1% /run/secrets/kubernetes.io/serviceaccount tmpfs 3.8G 0 3.8G 0% /proc/acpi tmpfs 3.8G 0 3.8G 0% /sys/firmware
  13. 验证示例应用程序已将数据写入 FSx for Lustre 文件系统。

    kubectl exec -it fsx-app -- ls /data

    示例输出如下。

    out.txt

    此示例输出显示示例应用程序成功编写了 out.txt 文件到文件系统。

注意

删除集群之前,请务必删除 FSx for Lustre 文件系统。有关更多信息,请参阅《FSx for Lustre 用户指南》中的清理资源