小编use*_*743的帖子

在Spidering中存储URL

我用Python创建了一个小网页蜘蛛,用于收集网址.我对内容不感兴趣.现在我将所有访问过的URL保存在内存中,因为我不希望我的蜘蛛两次访问URL.当然,这是实现这一目标的一种非常有限的方式.

那么跟踪我访问过的网址的最佳方法是什么?

我应该使用数据库吗?

  • 哪一个?MySQL,SQLite,PostgreSQL?
  • 我该如何保存网址?作为尝试在访问之前插入每个URL的主键?

或者我应该将它们写入文件?

  • 一个文件?
  • 多个文件?我该如何设计文件结构?

我确信有关于这个或类似主题的书籍和大量论文.你能告诉我一些我应该阅读的建议吗?

python database url storage web-crawler

7
推荐指数
2
解决办法
976
查看次数

标签 统计

database ×1

python ×1

storage ×1

url ×1

web-crawler ×1