爬网程序计划程序 API - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

爬网程序计划程序 API

爬网程序计划程序 API 介绍 AWS Glue 爬网程序数据类型,以及用于创建、删除、更新和列示爬网程序的 API。

数据类型

Schedule 结构

一个使用 cron 语句计划事件的计划对象。

Fields

  • ScheduleExpression – UTF-8字符串.

    用于指定计划的 cron 表达式 (请参阅用于作业和爬网程序的基于时间的计划)。例如,要每天在12:15UTC运行某个项目,您应指定: cron(15 12 * * ? *).

  • State – UTF-8字符串(有效值: SCHEDULED |内测 NOT_SCHEDULED |内测 TRANSITIONING)。

    计划的状态。

Operations

UpdateCrawlerSchedule 操作(Python:update_crawler_schedule)

使用 cron 表达式更新爬网程序的计划。

Request

Response

  • 无响应参数。

Errors

  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • SchedulerTransitioningException

  • OperationTimeoutException

StartCrawlerSchedule 操作(Python:start_crawler_schedule)

将指定爬网程序的计划状态更改为 SCHEDULED,除非爬网程序已在运行或者计划状态已为 SCHEDULED

Request

  • CrawlerName必填: UTF-8字符串,长度不少于1或255字节,匹配 Single-line string pattern.

    要计划的爬网程序的名称。

Response

  • 无响应参数。

Errors

  • EntityNotFoundException

  • SchedulerRunningException

  • SchedulerTransitioningException

  • NoScheduleException

  • OperationTimeoutException

StopCrawlerSchedule 操作(Python:stop_crawler_schedule)

将指定爬网程序的计划状态设置为 NOT_SCHEDULED,但不停止爬网程序 (如果已在运行)。

Request

  • CrawlerName必填: UTF-8字符串,长度不少于1或255字节,匹配 Single-line string pattern.

    要设置其计划状态的爬网程序的名称。

Response

  • 无响应参数。

Errors

  • EntityNotFoundException

  • SchedulerNotRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException