我正在用Python写一个蜘蛛来抓取一个网站.麻烦的是,我需要检查大约250万页,所以我真的可以使用一些帮助使其优化速度.
我需要做的是检查一定数量的页面,如果发现它记录了页面的链接.蜘蛛非常简单,只需要对很多页面进行排序.
我是Python的新手,但之前使用过Java和C++.我还没有开始编码,因此任何有关库或框架的建议都会很棒.任何优化技巧也非常感谢.
python web-crawler
python ×1
web-crawler ×1