我是Python的初学者,我正在使用Scrapy进行人事网络项目.
我使用Scrapy反复从多个网站中提取数据,因此在添加链接之前,如果链接已经在数据库中,我需要检查每次抓取.我是在piplines.py类中完成的:
class DuplicatesPipline(object):
def process_item(self, item, spider):
if memc2.get(item['link']) is None:
return item
else:
raise DropItem('Duplication %s', item['link'])
Run Code Online (Sandbox Code Playgroud)
但我听说使用中间件更适合这项任务.
我发现在Scrapy中使用中间件有点困难,任何人都可以请我重定向到一个好的教程.
建议是受欢迎的.
谢谢,
编辑:
我正在使用MySql和memcache.
根据@Talvalin的回答,这是我的尝试:
# -*- coding: utf-8 -*-
from scrapy.exceptions import IgnoreRequest
import MySQLdb as mdb
import memcache
connexion = mdb.connect('localhost','dev','passe','mydb')
memc2 = memcache.Client(['127.0.0.1:11211'], debug=1)
class IgnoreDuplicates():
def __init__(self):
#clear memcache object
memc2.flush_all()
#update memc2
with connexion:
cur = connexion.cursor()
cur.execute('SELECT link, title FROM items')
for item in cur.fetchall():
memc2.set(item[0], item[1])
def precess_request(self, request, spider):
#if the url is not in memc2 keys, it returns None.
if memc2.get(request.url) is None:
return None
else:
raise IgnoreRequest()
Run Code Online (Sandbox Code Playgroud)
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.IgnoreDuplicates': 543,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500, }
Run Code Online (Sandbox Code Playgroud)
但似乎在爬行时会忽略process_request方法.
提前致谢,
Tal*_*lin 10
下面是一些示例中间件代码,它将来自sqlite3表的URL加载(Id INT, url TEXT)到一个集合中,然后检查对该集合的请求URL以确定是否应该忽略该URL.应该使用MySQL和memcache来调整此代码应该是相当简单的,但如果您有任何问题或疑问,请告诉我.:)
import sqlite3
from scrapy.exceptions import IgnoreRequest
class IgnoreDuplicates():
def __init__(self):
self.crawled_urls = set()
with sqlite3.connect('C:\dev\scrapy.db') as conn:
cur = conn.cursor()
cur.execute("""SELECT url FROM CrawledURLs""")
self.crawled_urls.update(x[0] for x in cur.fetchall())
print self.crawled_urls
def process_request(self, request, spider):
if request.url in self.crawled_urls:
raise IgnoreRequest()
else:
return None
Run Code Online (Sandbox Code Playgroud)
如果有机会出现像我这样的导入问题,并且即将打开显示器,上面的代码放在一个middlewares.py文件中,该文件放在顶层项目文件夹中,DOWNLOADER_MIDDLEWARES设置如下
DOWNLOADER_MIDDLEWARES = {
'myproject.middlewares.IgnoreDuplicates': 543,
'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 500,
}
Run Code Online (Sandbox Code Playgroud)