本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
爬网程序计划程序 API
爬网程序调度器 API 介绍 Amazon Glue 爬网程序数据类型,以及用于创建、删除、更新和列出爬网程序的 API。
数据类型
Schedule 结构
一个使用 cron
语句计划事件的计划对象。
字段
-
ScheduleExpression
– UTF-8 字符串。用于指定计划的
cron
表达式 (请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)
。 -
State
– UTF-8 字符串(有效值:SCHEDULED
|NOT_SCHEDULED
|TRANSITIONING
)。计划的状态。
操作
UpdateCrawlerSchedule 操作(Python:update_crawler_schedule)
使用 cron
表达式更新爬网程序的计划。
请求
-
CrawlerName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。要更新其计划的爬网程序的名称。
-
Schedule
– UTF-8 字符串。用于指定计划的更新的
cron
表达式(请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天 12:15 UTC 运行某些任务,您应该指定:cron(15 12 * * ? *)
。
响应
无响应参数。
错误
EntityNotFoundException
InvalidInputException
VersionMismatchException
SchedulerTransitioningException
OperationTimeoutException
StartCrawlerSchedule 操作(Python:start_crawler_schedule)
将指定爬网程序的计划状态更改为 SCHEDULED
,除非爬网程序已在运行或者计划状态已为 SCHEDULED
。
请求
-
CrawlerName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。要计划的爬网程序的名称。
响应
无响应参数。
错误
EntityNotFoundException
SchedulerRunningException
SchedulerTransitioningException
NoScheduleException
OperationTimeoutException
StopCrawlerSchedule 操作(Python:stop_crawler_schedule)
将指定爬网程序的计划状态设置为 NOT_SCHEDULED
,但不停止爬网程序 (如果已在运行)。
请求
-
CrawlerName
– 必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。要设置其计划状态的爬网程序的名称。
响应
无响应参数。
错误
EntityNotFoundException
SchedulerNotRunningException
SchedulerTransitioningException
OperationTimeoutException