scrapy新手：如何抓取response.css的文本部分？

Question

scrapy新手：如何抓取response.css的文本部分？

use*_*364 4 python css-selectors scrapy web-scraping

当我练习时，我只想捕获文本部分（1,2,3,4,5...），没有该部分如何编写response.css("td[class='c1']") ？

scrapy shell "https://tw.movies.yahoo.com/chart.html"
response.css("td[class='c1']")

Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

Answer 1

ale*_*cxe 5

这里有两种选择，一种使用css()，另一种使用xpath()：

>>> response.css("td.c1 > span::text").extract()
[u'1', u'2', u'3', u'4', u'5', u'6', u'7', u'8', u'9', u'10', u'11', u'12', u'13', u'14', u'15', u'16', u'17', u'18', u'19', u'20']
>>> response.xpath("//td[@class='c1']/span/text()").extract()
[u'1', u'2', u'3', u'4', u'5', u'6', u'7', u'8', u'9', u'10', u'11', u'12', u'13', u'14', u'15', u'16', u'17', u'18', u'19', u'20']

Run Code Online (Sandbox Code Playgroud)

归档时间：	11 年，6 月前
查看次数：	14375 次
最近记录：	4 年，8 月前