我正在使用线程和队列模块在Python中编写一个简单的爬虫程序.我获取一个页面,检查链接并将它们放入队列,当某个线程完成处理页面时,它从队列中抓取下一个.我正在为我已经访问过的页面使用一个数组来过滤我添加到队列中的链接,但是如果有多个线程并且它们在不同页面上获得相同的链接,则它们会将重复的链接放入队列.那么如何才能找出某个url是否已经在队列中以避免再次将其放入队列中?
python queue multithreading
multithreading ×1
python ×1
queue ×1