创建爬网程序计划 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

创建爬网程序计划

您可以使用 Amazon Glue 控制台或 Amazon CLI 为爬网程序创建计划。

Amazon Web Services Management Console
  1. 登录 Amazon Web Services Management Console 并打开位于 https://console.aws.amazon.com/glue/ 的 Amazon Glue 控制台。

  2. 在导航窗格中选择 Crawlers (爬网程序)

  3. 请按照配置爬网程序部分中的步骤 1-3 操作。

  4. 步骤 4:设置输出和计划中,选择一个爬网程序计划以设置运行频率。您可以选择每小时、每天、每周、每月运行爬网程序,也可以使用 cron 表达式定义自定义计划。

    cron 表达式是一个表示计划模式的字符串,由 6 个字段组成,用空格隔开:* * * * * <minute> <hour> <day of month> <month> <day of week> <year>

    例如,要在每天午夜运行任务,cron 表达式为:0 0 * * ? *

    有关更多信息,请参阅 Cron 表达式

  5. 查看您配置的爬网程序设置,然后创建爬网程序以按计划运行。

Amazon CLI
aws glue create-crawler --name myCrawler \ --role AWSGlueServiceRole-myCrawler \ --targets '{"S3Targets":[{Path="s3://amzn-s3-demo-bucket/"}]}' \ --schedule cron(15 12 * * ? *)

有关使用 cron 安排作业和爬网程序的更多信息,请参阅用于作业和爬网程序的基于时间的计划