使用 Spigot 对数据集进行采样 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Spigot 对数据集进行采样

要测试任务执行的转换,您可能需要获取数据样本,以检查转换是否按预期工作。Spigot 转换将数据集中的记录子集写入 Amazon S3 存储桶中的 JSON 文件。数据采样方法可以是文件开头的指定记录数,或用于选取记录的概率因子。

将 Spigot 转换节点添加到任务图
  1. (可选)打开资源面板,然后选择 Spigot 将新转换添加到作业图(如果需要)。

  2. Node properties (节点属性) 选项卡上,输入任务图中节点的名称。如果尚未选择父节点,请从 Node parents (父节点) 列表中选择一个节点,用作转换的输入源。

  3. 选择节点详细信息窗格中的 Transform (转换) 选项卡。

  4. 输入 Amazon S3 路径或选择 Browse S3 (浏览 S3),在 Amazon S3 中选择位置。在此位置,任务将数据写入包含数据样本的 JSON 文件。

  5. 输入采样方法的信息。您可以为指定 Number of records (记录数) 的值,从数据集的开头开始写入,指定 Probability threshold (概率阈值)(以十进制值输入,最大值为 1),挑选任何指定记录。

    例如,要从数据集中写入前 50 条记录,您可以将 Number of records (记录数) 设置为 50,将 Probability threshold (概率阈值) 设置为 1(100%)。