Erlang是网络浏览器的正确选择吗?

Tho*_*mas 12 erlang web-crawler

我打算为NLP项目编写一个webcrawler,每次在特定的时间间隔内读取论坛的线程结构,并用新内容解析每个线程.通过正则表达式,提取作者,新帖子的日期和内容.然后将结果存储在数据库中.

用于爬网程序的语言和平台必须符合以下条件:

  • 可在多个内核和cpu上轻松扩展
  • 适用于高I/O负载
  • 快速正则表达式匹配
  • 容易维护/很少操作开销

经过一些研究后,我认为Erlang可能是一个合适的候选者,但我读到它并不是很好的字符串处理(以及正则表达式匹配).我对维护因素也没有任何满足感.

Erlang是上述场景的好技术吗?如果没有,什么是一个好的选择?

hoj*_*oju 8

我也在评估erlang用作网络爬虫,到目前为止它看起来不错.

有许多现有的有用模块:HTML解析器,HTTP客户端,XPath,正则表达式,缓存.

其他 有兴趣相同的使用情况下,这样你就可以向他们学习.

但是,如果这只是一个一个项目我推荐Python/Ruby/Perl,因为它将更容易开始.