Chrome 扩展 webscraper.io - 选择“下一步”时分页如何工作

Question

Chrome 扩展 webscraper.io - 选择“下一步”时分页如何工作

eig*_*tor 5 pagination google-chrome web-scraping

我正在尝试使用 google chrome 扩展webscraper.io抓取网站的表格。在扩展的教程中，记录了如何抓取具有不同页面的网站，例如“第 1 页”、“第 2 页”和“第 3 页”，其中每个页面都直接链接到主页上。

然而，在我试图抓取的网站示例中，只有一个“下一步”按钮可以访问下一个网站。如果我按照教程中的步骤为“下一个”页面创建链接，它只会考虑第 1 页和第 2 页。为每个页面创建一个“下一个”链接是不可行的，因为它们太多了。如何让 webscraper 包含所有页面？有没有办法使用 webscraper 扩展来循环浏览页面？

我知道这种可能的重复：分页 Chrome web scraper。然而，它并没有受到欢迎，也没有包含任何有用的答案。

Answer 1

eig*_*tor 7

按照此处的高级文档，通过使“分页”链接成为其自己的父链接来解决问题。然后，抓取软件将递归遍历所有页面及其“下一个”页面。用他们的话说，

要从所有分页链接中提取项目，包括开始时不可见的项目，您需要创建另一个链接选择器来选择分页链接。图 2 显示了如何在站点地图中创建链接选择器。当刮板打开类别链接时，它将提取页面中可用的项目。之后，它将找到分页链接并访问这些链接。如果分页链接选择器成为其自身的子项，它将递归地发现所有分页页面。

我想到了。有些东西可以是多个父母的孩子，但没有明确说明。选择父母时按 cntl 有效。 (5认同)

归档时间：	9 年前
查看次数：	10348 次
最近记录：	6 年，9 月前