亚马逊 lambda 适合网页抓取吗?

Ani*_*hir 10 cloud amazon-web-services web-scraping aws-lambda

如果我创建一个函数来获取网页。它会在每次执行时在不同的 IP 上执行它,以便我的抓取请求不会被阻止吗?

ted*_*r42 -3

当文件放置在 S3 中或将数据添加到 Kinesis 或 DynamoDB 时,将触发 Lambda。这通常与网络爬虫的需求背道而驰,尽管像 S3 这样的东西肯定可以作为队列/作业运行器执行。

抓取不同的IP?当然,lambda 部署在许多机器上,但这实际上对您没有帮助,因为您无法控制机器或其 IP。

  • 不控制 IP 确实有帮助,这正是您想要的 - 每次调用抓取作业都会有一个新 IP,对吧?此外,s3、kinesis 和 dynamoDb 并不是运行 lambda 函数的唯一选项。您可以使用 sdk 或 cli 按需调用 lambda 函数。您可以让一个程序从 SNS/SQS 读取“抓取作业”,然后调用 lambda 函数来执行抓取。 (4认同)
  • API网关可以触发AWS Lambda。 (3认同)
  • 您还可以定期自动触发(计划事件) http://docs.aws.amazon.com/lambda/latest/dg/with-scheduled-events.html 此外,为了获得简单的 lambda 体验,请查看 Serverless http://serverless.com (2认同)