标签: scraping

我一直在我们的日志中跟踪一些蜘蛛，我在他们的 ip 上做了一个跟踪路由，以发现它们实际上是 EC2 实例。用户代理被列为 Google bot 和 msnbot，但它们不是 Google 或 MS ip。有什么我可以做的吗，欺骗用户代理是一种常见的做法吗？我猜如果我禁止他们的 ip（我已经这样做了），他们只会启动一个新实例并继续。不过，我不想禁止所有 EC2 实例。

scraping

Rya*_*zel

2011 03-22

3
推荐指数

1
解决办法

777
查看次数

蜘蛛和“官方”网络机器人的 IP 地址

是否有iplists.com的官方 API ，我可以从那里获取蜘蛛列表？

我的目的是将这些 IP 列入白名单以进行站点抓取。

web-hosting scraping

Qui*_*Par

2012 08-24

3
推荐指数

1
解决办法

1035
查看次数

Amazon EC2 + S3 + Python + Scraping - 最便宜的方法？

我利用了亚马逊的 AWS 产品，如果我想得对，请从高层次解释这一点。

所以我的本地机器上几乎没有 Python 抓取脚本。我想使用 AWS 实现超快速的互联网连接和更便宜的价格 - 赢/赢！

我知道我可以在 EC2 上部署 centOS/Ubuntu 实例。安装必要的 Python 库。使用 boto (Python) 启动和停止实例以节省成本。到目前为止我的想法正确吗？（可行吗？）
我将 CRON 一些脚本，这些脚本将开始获取（抓取）HTML 文件以供稍后解析。所以这些 HTML 文件被复制到 S3 进行存储（或者我应该将它们转储到我的本地机器，因为这是我将在 MySQL 中解析和存储的方式？）。

请告知我的假设和我对 AWS 的几小时阅读/谷歌搜索的了解是否有意义。

linux python scraping amazon-ec2 amazon-web-services

Thi*_*ode

lucky-day

1
推荐指数

1
解决办法

5046
查看次数