Builtwith.com和类似的服务(收费)提供使用特定技术(例如SalesForce或NationBuilder)构建的域的列表。我对某些buildwith感兴趣的技术不扫描,可能是因为它们在市场上的份额太小。
如果我们知道某个网站使用了某些揭示技术的页面签名,那么最好的方法是识别尽可能多的网站?我们预计会有1000个,并且我们对按点击量排名前1000万的网站感兴趣。(我们不认为最大的站点使用此技术。)
我有一个开放源代码网络爬虫列表-http: //bigdata-madesimple.com/top-50-open-source-web-crawlers-for-data-mining/-但我的用例似乎与许多常规条件不同对于抓取工具,因为我们只想使用此签名保存域名的“匹配数”。因此,我们不需要太快,但是我们需要检查网站的所有页面,直到找到匹配为止,仅使用负责任的爬网做法,等等。什么是最好的?
或者,除了调整爬虫并运行它之外,还有没有办法让Google或其他搜索引擎查找页面特征,而不是用户可见的内容呢?
web-crawler ×1