Leg*_*end 2 python facebook mechanize web-crawler
我已经谷歌搜索了一段时间,但我想我使用了错误的关键字集.有没有人知道这个URI让我请求Facebook允许我抓取他们的网络?上次我使用Python来做这件事,有人建议我看一下,但我找不到那个帖子.
令人惊讶的是,这是在他们的robots.txt中给出的.
您正在寻找的链接是这个:
http://www.facebook.com/apps/site_scraping_tos.php
如果您已经不是一个庞大的组织,不要期望在那里明确列入白名单.根据robots.txt和TOS,如果您没有明确列入白名单,则根本不允许抓取.您必须使用API.
甚至不要考虑伪装成白名单爬行者之一.Facebook通过白名单过滤每个抓取工具,其他任何看起来像爬行的东西都可以立即获得永久禁令.有一段时间,只是点击太快的用户偶尔会碰到这个.
归档时间: |
|
查看次数: |
1292 次 |
最近记录: |