ren*_*ren 2 html xpath scrapy web-scraping
我正在使用scrapy编写一个scraper,以查找其中包含图像的链接并获取链接的href。我正在抓取的页面上填充了图像缩略图,当您单击缩略图时,它链接到图像的完整尺寸。我想获取完整尺寸的图像。
html看起来像这样:
<a href="example.com/full_size_image.jpg">
<img src="example.com/image_thumbnail.jpg">
</a>
Run Code Online (Sandbox Code Playgroud)
而且我想抓住"example.com/full_size_image.jpg"。
我目前的做法是
img_urls = scrapy.Selector(response).xpath('//a/img/..').xpath("@href").extract()
Run Code Online (Sandbox Code Playgroud)
但是我想将其简化为单个xpath表达式,因为我计划允许用户输入自己的xpath表达式字符串。
您可以通过以下方式检查元素是否具有另一个子元素:
response.xpath('//a[img]/@href').extract()
Run Code Online (Sandbox Code Playgroud)
请注意,我正在使用response.xpath()快捷方式并提供一个XPath表达式。
| 归档时间: |
|
| 查看次数: |
850 次 |
| 最近记录: |