我根据这里伟大人士提供的解决方案修改了代码; 我在这里得到了代码下面显示的错误.
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.utils.response import get_base_url
from scrapy.utils.url import urljoin_rfc
from dmoz2.items import DmozItem
class DmozSpider(BaseSpider):
name = "namastecopy2"
allowed_domains = ["namastefoods.com"]
start_urls = [
"http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=1",
"http://www.namastefoods.com/products/cgi-bin/products.cgi?Function=show&Category_Id=4&Id=12",
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('/html/body/div/div[2]/table/tr/td[2]/table/tr')
items = []
for site in sites:
item = DmozItem()
item['manufacturer'] = 'Namaste Foods'
item['productname'] = site.select('td/h1/text()').extract()
item['description'] = site.select('//*[@id="info-col"]/p[7]/strong/text()').extract()
item['ingredients'] = site.select('td[1]/table/tr/td[2]/text()').extract()
item['ninfo'] = site.select('td[2]/ul/li[3]/img/@src').extract()
#insert code that will save the above image path …Run Code Online (Sandbox Code Playgroud) 在Scrapy中,我在items.py中以特定顺序指定了我的项目,并且我的蜘蛛以相同的顺序再次具有这些项目.但是,当我运行spider并将结果保存为csv时,不会保留items.py或spider中的列顺序.如何让CSV以特定顺序显示列.示例代码将非常感激.
谢谢.
我刚刚安装了Magento CE 1.6.2,现在最烦人的事情就是管理界面会在3分钟不活动后自动将我注销.如何解决这个问题要么让我登录,要么在注销前增加时间?
我尝试Scrapy在 mac 10.8.2上安装。这是我所做的:
在终端中,我从 myuser 目录运行命令:
pip install --user scrapy
Run Code Online (Sandbox Code Playgroud)
我在终端中收到以下消息:
Successfully installed scrapy
Cleaning up...
Run Code Online (Sandbox Code Playgroud)
接下来,我从同一个 myuser 目录执行以下操作:
scrapy shell http://example.com
Run Code Online (Sandbox Code Playgroud)
这是我得到的错误:
-bash: scrapy: command not found
Run Code Online (Sandbox Code Playgroud)
我相信这是一个路径问题,scrapy 已经安装在 /Library/Python/2.7/lib/python/site-packages 中。我如何让scrapy运行?
我刚刚创建了一个新的scrapy项目,似乎忘记了一些东西.在任何情况下,我的蜘蛛运行良好,但不会将输出存储到csv.是否需要进入管道或设置文件?我正在使用此命令:
scrapy crawl ninfo -- set FEED_URI=myinfo.csv --set FEED_FORMAT=csv
Run Code Online (Sandbox Code Playgroud)
任何帮助表示赞赏,谢谢.TM值
scrapy ×4
python ×2
csv ×1
imagesource ×1
logout ×1
magento ×1
magento-1.6 ×1
php ×1
python-2.7 ×1