我正在尝试抓取网站,并且想抓取自定义 html 属性。
首先我得到链接:
result.css('p.paraclass a').extract()
Run Code Online (Sandbox Code Playgroud)
它看起来像这样:
<a href="https://thisisawebsite.com" data-id="12345" class="aclass">I am a link</a>
Run Code Online (Sandbox Code Playgroud)
我想抓取 data-id 标签的值。我可以通过获取整个链接然后操作它来做到这一点,但我想弄清楚是否有办法直接使用scrapy选择器来做到这一点。
| 归档时间: |
|
| 查看次数: |
1152 次 |
| 最近记录: |