使用 Scrapy 创建站点地图

DP.*_*DP. 5 python scrapy scrapy-spider

是否可以使用 Scrapy 生成网站的站点地图,包括每个页面的 URL 及其级别/深度(我需要从主页遵循的链接数量)?站点地图的格式不必是 XML,它只是关于信息。此外,我想保存被抓取页面的完整 HTML 源代码以供进一步分析,而不是仅从中抓取某些元素。

有使用 Scrapy 经验的人能否告诉我这是否是 Scrapy 可能/合理的场景,并给我一些有关如何查找说明的提示?到目前为止,我只能找到更复杂的场景,但没有解决这个看似简单的问题的方法。

经验丰富的网络爬虫的插件:鉴于它是可能的,你认为 Scrapy 甚至是合适的工具吗?或者使用请求等库编写自己的爬虫会更容易吗?

Pun*_*mba -1

  • 是的,可以使用 Scrapy 的 LinkExtractor 库来完成您正在尝试的操作。这将帮助您记录站点上所有页面的 URL。
  • 完成此操作后,您可以使用 urllib Python 库迭代每个页面的 URL 和源代码 (HTML)。
  • 然后,您可以使用 RegEx 在每个页面的 HTML 中查找您要查找的任何模式,以便执行分析。