Jos*_*das 4 python string xpath scrapy
我正在使用scrapy构建数据提取,并希望规范化从HTML文档中提取的原始字符串.这是一个示例字符串:
Sapphire RX460 OC 2/4GB
Run Code Online (Sandbox Code Playgroud)
发现两个组的两个空格前述字符串文字之间的OC和2.
Python提供修剪,如我如何用Python修剪空白?但是,这不会处理两者之间的空间OC和2,我需要合并为一个空间.
我尝试使用normalize-space()XPath,同时使用我的scrapy Selector提取数据,但是它的工作方式很复杂,并且具有强大的向右漂移:
product_title = product.css('h3').xpath('normalize-space((text()))').extract_first()
Run Code Online (Sandbox Code Playgroud)
有没有一种使用Python规范化空格的优雅方法?如果不是单行,有没有办法可以将上面的行分解为更容易阅读的内容而不会出现缩进错误,例如
product_title = product.css('h3')
.xpath('normalize-space((text()))')
.extract_first()
Run Code Online (Sandbox Code Playgroud)