Chrome 扩展 webscraper.io - 选择“下一步”时分页如何工作

eig*_*tor 5 pagination google-chrome web-scraping

我正在尝试使用 google chrome 扩展webscraper.io抓取网站的表格。在扩展的教程中,记录了如何抓取具有不同页面的网站,例如“第 1 页”、“第 2 页”和“第 3 页”,其中每个页面都直接链接到主页上。

然而,在我试图抓取网站示例中,只有一个“下一步”按钮可以访问下一个网站。如果我按照教程中的步骤为“下一个”页面创建链接,它只会考虑第 1 页和第 2 页。为每个页面创建一个“下一个”链接是不可行的,因为它们太多了。如何让 webscraper 包含所有页面?有没有办法使用 webscraper 扩展来循环浏览页面?

我知道这种可能的重复:分页 Chrome web scraper。然而,它并没有受到欢迎,也没有包含任何有用的答案。

eig*_*tor 7

按照此处的高级文档,通过使“分页”链接成为其自己的父链接来解决问题。然后,抓取软件将递归遍历所有页面及其“下一个”页面。用他们的话说,

要从所有分页链接中提取项目,包括开始时不可见的项目,您需要创建另一个链接选择器来选择分页链接。图 2 显示了如何在站点地图中创建链接选择器。当刮板打开类别链接时,它将提取页面中可用的项目。之后,它将找到分页链接并访问这些链接。如果分页链接选择器成为其自身的子项,它将递归地发现所有分页页面。

  • 我想到了。有些东西可以是多个父母的孩子,但没有明确说明。选择父母时按 cntl 有效。 (5认同)