哪种语言适合编写Web爬虫?

Sha*_*oon 3 php c++ python web-crawler

我有丰富的PHP经验,虽然我意识到PHP可能不是大型Web爬虫的最佳语言,因为进程无法无限期运行.人们建议使用哪些语言?

Chr*_*lor 10

大多数语言可能是合理的,关键组件是

  1. 图书馆处理互联网Protcols
  2. 用于处理正则表达式的库
  3. 用于解析HTML内容的库

今天,大多数语言都有对上述语言有很好支持的库,当然你需要一些方法来保存可能是某种数据库的结果.

更重要的是,而不是语言是理解你需要处理的所有概念.以下是一些可能有助于您入门的Python示例.

http://www.example-code.com/python/pythonspider.asp


Chu*_*uck 6

您可以轻松使用任何语言与良好的网络库,并支持解析您想要抓取的格式.这些确实是唯一的资格.

  • @peachykeen:如果没有后两者,这是可能的 - 这只会是更多的工作.至于速度,我认为INTERCAL对于爬虫来说可能是一个糟糕的选择,但我不明白为什么速度对于网络浏览器来说比任何其他类型的程序更重要(特别是考虑到Web-anything极有可能是IO -界).您的爬虫必须非常慢的执行时间才能压倒Web的延迟. (2认同)