爬网程序计划程序 API

爬网程序调度器 API 介绍 Amazon Glue 爬网程序数据类型，以及用于创建、删除、更新和列出爬网程序的 API。

数据类型

一个使用 cron 语句计划事件的计划对象。

ScheduleExpression – UTF-8 字符串。

用于指定计划的 cron 表达式 (请参阅用于作业和爬网程序的基于时间的计划）。例如，要每天 12:15 UTC 运行某些任务，您应该指定：cron(15 12 * * ? *)。
State – UTF-8 字符串（有效值：SCHEDULED | NOT_SCHEDULED | TRANSITIONING）。

计划的状态。

使用 cron 表达式更新爬网程序的计划。

CrawlerName – 必填：UTF-8 字符串，长度不少于 1 个字节或超过 255 个字节，与 Single-line string pattern 匹配。

要更新其计划的爬网程序的名称。
Schedule – UTF-8 字符串。

用于指定计划的更新的 cron 表达式（请参阅用于作业和爬网程序的基于时间的计划）。例如，要每天 12:15 UTC 运行某些任务，您应该指定：cron(15 12 * * ? *)。

将指定爬网程序的计划状态更改为 SCHEDULED，除非爬网程序已在运行或者计划状态已为 SCHEDULED。

CrawlerName – 必填：UTF-8 字符串，长度不少于 1 个字节或超过 255 个字节，与 Single-line string pattern 匹配。

要计划的爬网程序的名称。

将指定爬网程序的计划状态设置为 NOT_SCHEDULED，但不停止爬网程序 (如果已在运行)。

CrawlerName – 必填：UTF-8 字符串，长度不少于 1 个字节或超过 255 个字节，与 Single-line string pattern 匹配。

要设置其计划状态的爬网程序的名称。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

列统计数据

自动生成 ETL 脚本