我用Python创建了一个小网页蜘蛛,用于收集网址.我对内容不感兴趣.现在我将所有访问过的URL保存在内存中,因为我不希望我的蜘蛛两次访问URL.当然,这是实现这一目标的一种非常有限的方式.
那么跟踪我访问过的网址的最佳方法是什么?
我应该使用数据库吗?
或者我应该将它们写入文件?
我确信有关于这个或类似主题的书籍和大量论文.你能告诉我一些我应该阅读的建议吗?
python database url storage web-crawler
database ×1
python ×1
storage ×1
url ×1
web-crawler ×1