使用xpath选择具有图像内部链接的href

Question

我正在使用scrapy编写一个scraper，以查找其中包含图像的链接并获取链接的href。我正在抓取的页面上填充了图像缩略图，当您单击缩略图时，它链接到图像的完整尺寸。我想获取完整尺寸的图像。

html看起来像这样：

<a href="example.com/full_size_image.jpg">
     <img src="example.com/image_thumbnail.jpg">
</a>

而且我想抓住"example.com/full_size_image.jpg"。

我目前的做法是

img_urls = scrapy.Selector(response).xpath('//a/img/..').xpath("@href").extract()

但是我想将其简化为单个xpath表达式，因为我计划允许用户输入自己的xpath表达式字符串。

Answer 1

您可以通过以下方式检查元素是否具有另一个子元素：

response.xpath('//a[img]/@href').extract()

请注意，我正在使用response.xpath()快捷方式并提供一个XPath表达式。