相关疑难解决方法(0)

有人知道我可以使用基于Python的优秀网络爬虫吗？

我很想写自己的,但我现在没有足够的时间.我已经看过维基百科的开源爬虫列表,但我更喜欢用Python编写的东西.我意识到我可能只是使用维基百科页面上的一个工具并将其包装在Python中.我可能最终会这样做 - 如果有人对这些工具有任何建议,我愿意听到他们的意见.我通过它的网络界面使用了Heritrix,我发现它非常麻烦.我肯定不会为即将推出的项目使用浏览器API.

提前致谢.另外,这是我的第一个问题!

python web-crawler

67
推荐指数

3
解决办法

9万
查看次数

相当于Python中的wget下载网站和资源

2.5年前在下载一个网页及其所有资源文件的问题上也发生了同样的事情,但没有得到答案,"请看相关主题"并不是真的在问同样的事情.

我想下载页面上的所有内容,以便只从文件中查看它.

命令

wget --page-requisites --domains = DOMAIN --no-parent --html-extension --convert-links --restrict-file-names = windows

完全是我需要的.但是我们希望能够将其与其他必须可移植的东西联系起来,因此需要它在Python中.

我一直在看美丽的汤,scrapy,各种蜘蛛贴在这个地方,但这些都似乎处理以巧妙但具体的方式获取数据/链接.使用这些来做我想要的事情似乎需要大量工作来处理找到所有资源,当我确定必须有一个简单的方法.

非常感谢

python wget web-crawler

6
推荐指数

1
解决办法

7582
查看次数

标签统计

web-crawler ×2

wget ×1