爬网程序计划程序 API - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

爬网程序计划程序 API

爬网程序计划程序 API 介绍 AWS Glue 爬网程序数据类型,以及用于创建、删除、更新和列示爬网程序的 API。

数据类型

Schedule 结构

一个使用 cron 语句计划事件的计划对象。

字段

  • ScheduleExpression – UTF-8 字符串。

    用于指定计划的 cron 表达式 (请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

  • State – UTF-8 字符串(有效值:SCHEDULED | NOT_SCHEDULED | TRANSITIONING)。

    计划的状态。

操作

UpdateCrawlerSchedule 操作 (Python:update_crawler_schedule)

使用 cron 表达式更新爬网程序的计划。

请求

  • CrawlerName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要更新其计划的爬网程序的名称。

  • Schedule – UTF-8 字符串。

    用于指定计划的更新的 cron 表达式(请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)

响应

  • 无响应参数。

错误

  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule 操作 (Python:start_crawler_schedule)

将指定爬网程序的计划状态更改为 SCHEDULED,除非爬网程序已在运行或者计划状态已为 SCHEDULED

请求

  • CrawlerName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要计划的爬网程序的名称。

响应

  • 无响应参数。

错误

  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule 操作 (Python:stop_crawler_schedule)

将指定爬网程序的计划状态设置为 NOT_SCHEDULED,但不停止爬网程序 (如果已在运行)。

请求

  • CrawlerName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要设置其计划状态的爬网程序的名称。

响应

  • 无响应参数。

错误

  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException