目前正在与 Scrapy 合作。
我有一个存储在 MySQL 数据库中的 URL 列表。蜘蛛访问这些 URL,捕获两个目标信息(分数和计数)。我的目标是,当 Scrapy 完成抓取时,它会在移动到下一个 URL 之前自动填充相应的列。
我是新手,我似乎无法让保存部分正常工作。分数和计数已成功传递到数据库。但它会保存为新行,而不是与源 URL 关联。
这是我的代码:amazon_spider.py
import scrapy
from whatoplaybot.items import crawledScore
import MySQLdb
class amazonSpider(scrapy.Spider):
name = "amazon"
allowed_domains = ["amazon.com"]
start_urls = []
def parse(self, response):
print self.start_urls
def start_requests(self):
conn = MySQLdb.connect(
user='root',
passwd='',
db='scraper',
host='127.0.0.1',
charset="utf8",
use_unicode=True
)
cursor = conn.cursor()
cursor.execute(
'SELECT url FROM scraped;'
)
rows = cursor.fetchall()
for row in rows:
yield self.make_requests_from_url(row[0])
conn.close() …Run Code Online (Sandbox Code Playgroud)