Tho*_*mas 12 erlang web-crawler
我打算为NLP项目编写一个webcrawler,每次在特定的时间间隔内读取论坛的线程结构,并用新内容解析每个线程.通过正则表达式,提取作者,新帖子的日期和内容.然后将结果存储在数据库中.
用于爬网程序的语言和平台必须符合以下条件:
经过一些研究后,我认为Erlang可能是一个合适的候选者,但我读到它并不是很好的字符串处理(以及正则表达式匹配).我对维护因素也没有任何满足感.
Erlang是上述场景的好技术吗?如果没有,什么是一个好的选择?