爬网程序计划程序 API - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

爬网程序计划程序 API

爬网程序调度器 API 介绍 Amazon Glue 爬网程序数据类型,以及用于创建、删除、更新和列出爬网程序的 API。

数据类型

Schedule 结构

一个使用 cron 语句计划事件的计划对象。

字段
  • ScheduleExpression – UTF-8 字符串。

    用于指定计划的 cron 表达式 (请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

  • State – UTF-8 字符串(有效值:SCHEDULED | NOT_SCHEDULED | TRANSITIONING)。

    计划的状态。

操作

UpdateCrawlerSchedule 操作(Python:update_crawler_schedule)

使用 cron 表达式更新爬网程序的计划。

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要更新其计划的爬网程序的名称。

  • Schedule – UTF-8 字符串。

    用于指定计划的更新的 cron 表达式(请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule 操作(Python:start_crawler_schedule)

将指定爬网程序的计划状态更改为 SCHEDULED,除非爬网程序已在运行或者计划状态已为 SCHEDULED

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要计划的爬网程序的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule 操作(Python:stop_crawler_schedule)

将指定爬网程序的计划状态设置为 NOT_SCHEDULED,但不停止爬网程序 (如果已在运行)。

请求
  • CrawlerName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要设置其计划状态的爬网程序的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException