我很想写自己的,但我现在没有足够的时间.我已经看过维基百科的开源爬虫列表,但我更喜欢用Python编写的东西.我意识到我可能只是使用维基百科页面上的一个工具并将其包装在Python中.我可能最终会这样做 - 如果有人对这些工具有任何建议,我愿意听到他们的意见.我通过它的网络界面使用了Heritrix,我发现它非常麻烦.我肯定不会为即将推出的项目使用浏览器API.
提前致谢.另外,这是我的第一个问题!
python web-crawler
python ×1
web-crawler ×1