所需的权限步骤 1：创建收藏夹步骤 2：创建管道第 3 步：摄取一些示例数据相关资源

教程：使用 Amazon Ingestion 将数据提取到集合中 OpenSearch

本教程向您展示如何使用 Amazon OpenSearch Ingestion 配置简单管道并将数据提取到 Ama OpenSearch zon Serverless 集合中。管道是 OpenSearch Ingestion 预置和管理的资源。您可以使用管道筛选、丰富、转换、标准化和聚合数据，以便在 S OpenSearch ervice 中进行下游分析和可视化。

有关演示如何将数据提取到已配置的 OpenSearch 服务域的教程，请参阅。教程：使用 Amazon Ingestion 将数据提取到域中 OpenSearch

您将在本教程中完成以下步骤:.

创建集合。
创建管道。
摄取一些样本数据。

在本教程中，您将创建以下资源：

管道将写入的名为 ingestion-collection 的集合
名为 ingestion-pipeline-serverless 的管道

所需的权限

要完成本教程，您的用户或角色必须附加具有以下最低权限的基于身份的策略。这些权限允许您创建管道角色并附加策略（iam:Create*和iam:Attach*）、创建或修改集合（aoss:*）以及使用管道（osis:*）。

此外，还需要多个 IAM 权限才能自动创建管道角色并将其传递给 OpenSearch Ingestion，这样它就可以向集合写入数据。

步骤 1：创建收藏夹

首先，创建一个集合，将数据采集到其中。将集合命名为 ingestion-collection。

在https://console.aws.amazon.com/aos/家中导航至 Amazon OpenSearch 服务控制台。
选择左侧导航窗格中的集合，然后选择创建集合。
将集合命名为 ingestion-collection。
对于安全，选择标准创建。
在网络访问设置下，将访问类型更改为公有。
所有其他设置保留为默认值，然后选择 Next（下一步）。
现在，配置集合的数据访问策略。取消选择 “自动匹配访问策略设置”。

对于定义方法，选择 JSON，然后将下面的策略粘贴到编辑器中。此策略具有两个作用：

允许管道角色写入集合。

允许从集合中读取。稍后，在将一些示例数据摄取到管道后，查询集合，以确保数据已成功摄取并写入索引。


[
  {
    "Rules": [
      {
        "Resource": [
          "index/ingestion-collection/*"
        ],
        "Permission": [
          "aoss:CreateIndex",
          "aoss:UpdateIndex",
          "aoss:DescribeIndex",
          "aoss:ReadDocument",
          "aoss:WriteDocument"
        ],
        "ResourceType": "index"
      }
    ],
    "Principal": [
      "arn:aws:iam::your-account-id:role/OpenSearchIngestion-PipelineRole",
      "arn:aws:iam::your-account-id:role/Admin"
    ],
    "Description": "Rule 1"
  }
]

修改Principal元素以包含您的 Amazon Web Services 账户 ID。对于第二个委托人，请指定一个用户或角色，以便日后可以用来查询集合。
选择下一步。命名访问策略，pipeline-collection-access然后再次选择 Next。
查看集合配置并选择 Submit（提交）。

步骤 2：创建管道

现在你已经有了集合，就可以创建一个管道了。

创建管道

在亚马逊 OpenSearch 服务控制台中，从左侧导航窗格中选择 Pipelin es。
选择 Create pipeline（创建管道）。
选择空白管道，然后选择选择蓝图。
在本教程中，我们将创建一个使用 HTTP 源插件的简单管道。插件接受 JSON 数组格式的日志数据。我们将指定一个 OpenSearch Serverless 集合作为接收器，并将所有数据提取到索引中。my_logs

在 “源” 菜单中，选择 “HTTP”。在路径中，输入 /logs。
在本教程中，为简单起见，我们将配置管道的公共访问权限。对于源网络选项，请选择公共访问。有关配置 VPC 访问权限的更多信息，请参阅为 Amazon OpenSearch Ingestion 管道配置 VPC 访问。
选择下一步。
对于处理者，输入日期并选择添加。
启用 “从收到时间开始”。将所有其他设置保留为默认设置。
选择下一步。
配置接收器详细信息。对于OpenSearch 资源类型，选择集合（无服务器）。然后选择您在上一节中创建的 OpenSearch 服务集合。

将网络策略名称保留为默认名称。在索引名称中，输入 my_logs。 OpenSearch 如果该索引尚不存在，Ingestion 会自动在集合中创建该索引。
选择下一步。
为管道命名ingestion-pipeline-serverless。将容量设置保留为其默认值。
对于管道角色，选择创建并使用新的服务角色。管道角色为管道提供写入集合接收器以及从基于拉取的源中读取所需的权限。选择此选项即表示您允许 OpenSearch Ingestion 为您创建角色，而不是在 IAM 中手动创建角色。有关更多信息，请参阅在 Amazon OpenSearch Ingestion 中设置角色和用户。
对于服务角色名称后缀，请输入PipelineRole。在 IAM 中，角色的格式为arn:aws:iam::your-account-id:role/OpenSearchIngestion-PipelineRole。
选择下一步。检查您的管道配置，然后选择创建管道。管道需要 5-10 分钟才能变为活动状态。

第 3 步：摄取一些示例数据

当管道状态为 Active 时，您可以开始将数据摄取到管道。您必须使用 Signature 版本 4 对向管道发出的所有 HTTP 请求进行签名。使用诸如 Postman 或 awscurl 之类的 HTTP 工具向管道发送一些数据。与通过索引将数据直接引入集合一样，将数据摄取到管道始终需要 IAM 角色或者 IAM 访问密钥和私有密钥。

注意

签署请求的主体必须具有 osis:Ingest IAM 权限。

首先，从管道设置页面获取摄取 URL：

Pipeline settings page showing ingestion URL and other configuration details.

然后，将一些示例数据发送到摄取路径。以下示例请求使用 awscurl 向管道发送单个日志文件：


awscurl --service osis --region us-east-1 \
    -X POST \
    -H "Content-Type: application/json" \
    -d '[{"time":"2014-08-11T11:40:13+00:00","remote_addr":"122.226.223.69","status":"404","request":"GET http://www.k2proxy.com//hello.html HTTP/1.1","http_user_agent":"Mozilla/4.0 (compatible; WOW64; SLCC2;)"}]' \
    https://pipeline-endpoint.us-east-1.osis.amazonaws.com/logs

您现在会看到 200 OK 响应。

现在，查询 my_logs 索引，确保成功摄取日志条目：


awscurl --service aoss --region us-east-1 \
     -X GET \
     https://collection-id.us-east-1.aoss.amazonaws.com/my_logs/_search | json_pp

示例响应:


{
   "took":348,
   "timed_out":false,
   "_shards":{
      "total":0,
      "successful":0,
      "skipped":0,
      "failed":0
   },
   "hits":{
      "total":{
         "value":1,
         "relation":"eq"
      },
      "max_score":1.0,
      "hits":[
         {
            "_index":"my_logs",
            "_id":"1%3A0%3ARJgDvIcBTy5m12xrKE-y",
            "_score":1.0,
            "_source":{
               "time":"2014-08-11T11:40:13+00:00",
               "remote_addr":"122.226.223.69",
               "status":"404",
               "request":"GET http://www.k2proxy.com//hello.html HTTP/1.1",
               "http_user_agent":"Mozilla/4.0 (compatible; WOW64; SLCC2;)",
               "@timestamp":"2023-04-26T05:22:16.204Z"
            }
         }
      ]
   }
}