小编use_743的帖子

在Spidering中存储URL

我用Python创建了一个小网页蜘蛛,用于收集网址.我对内容不感兴趣.现在我将所有访问过的URL保存在内存中,因为我不希望我的蜘蛛两次访问URL.当然,这是实现这一目标的一种非常有限的方式.

那么跟踪我访问过的网址的最佳方法是什么？

我应该使用数据库吗？

哪一个？MySQL,SQLite,PostgreSQL？
我该如何保存网址？作为尝试在访问之前插入每个URL的主键？

或者我应该将它们写入文件？

一个文件？
多个文件？我该如何设计文件结构？

我确信有关于这个或类似主题的书籍和大量论文.你能告诉我一些我应该阅读的建议吗？

python database url storage web-crawler

7
推荐指数

2
解决办法

976
查看次数

标签统计

url ×1

web-crawler ×1