使用portia(scrapy)从网站中提取Meta标签

rah*_*hta 1 python web-crawler scrapy portia

使用portia(scrapy)从网站中提取Meta标签

我想使用portia从某些网站中提取meta标签,但它没有显示head标签,它只从body标签开始

我只能从body标签中提取数据

小智 7

您需要在其中注释元素body,然后导航到head要映射的元素.

  1. 注释页面上的元素,哪一个都无关紧要.
  2. 单击注释弹出窗口或右侧工具箱上的注释面板中的设置图标.
  3. 单击html元素.您将收到一条警告,指出您将丢失注释的任何映射属性,单击"确定".
  4. 再次单击设置图标,这次选择head元素.
  5. 再次单击设置图标,您可以选择子元素head.
  6. 选择元素后,单击+ Field按钮以创建新字段,然后将所需的属性值映射到目标字段.

另见:https://github.com/scrapinghub/portia/issues/60