Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅
中国的 Amazon Web Services 服务入门
(PDF)。
创建爬网程序计划
您可以使用 Amazon Glue 控制台或 Amazon CLI 为爬网程序创建计划。
- Amazon Web Services Management Console
-
-
登录 Amazon Web Services Management Console 并打开位于 https://console.aws.amazon.com/glue/ 的 Amazon Glue 控制台。
-
在导航窗格中选择 Crawlers (爬网程序)。
请按照配置爬网程序部分中的步骤 1-3 操作。
在步骤 4:设置输出和计划中,选择一个爬网程序计划以设置运行频率。您可以选择每小时、每天、每周、每月运行爬网程序,也可以使用 cron 表达式定义自定义计划。
cron 表达式是一个表示计划模式的字符串,由 6 个字段组成,用空格隔开:* * * * * <minute> <hour> <day of month> <month> <day of week> <year>
例如,要在每天午夜运行任务,cron 表达式为:0 0 * * ? *
有关更多信息,请参阅 Cron 表达式。
查看您配置的爬网程序设置,然后创建爬网程序以按计划运行。
- Amazon CLI
-
aws glue create-crawler
--name myCrawler
\
--role AWSGlueServiceRole-myCrawler
\
--targets '{"S3Targets":[{Path="s3://amzn-s3-demo-bucket/"
}]}' \
--schedule cron(15 12 * * ? *)
有关使用 cron 安排作业和爬网程序的更多信息,请参阅用于作业和爬网程序的基于时间的计划。