相关疑难解决方法(0)

有人知道我可以使用基于Python的优秀网络爬虫吗?

我很想写自己的,但我现在没有足够的时间.我已经看过维基百科的开源爬虫列表,但我更喜欢用Python编写的东西.我意识到我可能只是使用维基百科页面上的一个工具并将其包装在Python中.我可能最终会这样做 - 如果有人对这些工具有任何建议,我愿意听到他们的意见.我通过它的网络界面使用了Heritrix,我发现它非常麻烦.我肯定不会为即将推出的项目使用浏览器API.

提前致谢.另外,这是我的第一个问题!

python web-crawler

67
推荐指数
3
解决办法
9万
查看次数

有关与Lucene或Solr一起使用的蜘蛛工具的建议吗?

什么是用于HTML和XML文档(本地或基于Web)的良好爬虫(蜘蛛),并且在Lucene/Solr解决方案空间中运行良好?可能是基于Java的,但不一定是.

lucene solr web-crawler

16
推荐指数
2
解决办法
6610
查看次数

标签 统计

web-crawler ×2

lucene ×1

python ×1

solr ×1