use*_*505 0 html python css-selectors scrapy
所以我有一些像这样的html
<div class="content">
<div class="infobox">
<p> text </p>
<p> more text </p>
</div>
<p> text again </p>
<p> even more text </p>
</div>
Run Code Online (Sandbox Code Playgroud)
我正在使用这个选择器,'.content p::text'我认为这只会给我直接的孩子,所以我希望它能够提取“再次文本”和“更多文本”,但它也从另一个 div 内的段落中获取文本,我怎样才能防止这种情况发生,我只想要来自类 .content 的 div 的直接子代的段落中的文本
Scrapy 使用一组扩展的CSS 选择器和XPath 选择器。就您而言,您使用的是 CSS 选择器。您想要的 CSS 关系选择器>表示父/子关系,如:.content > p::text。Scrapy 的选择器在其文档中标题为“选择器”的部分中进行了描述。