使用 NodeJS 查找域上的所有页面

Question

使用 NodeJS 查找域上的所有页面

我正在尝试使用 Node.js 查找域上的所有页面。我在 Stackoverflow 上搜索，但我发现的只是 Ruby 的这个线程：Find all the web Pages in a domain and its subdomains - 我有同样的问题，但对于 Node.js 来说。我也用谷歌搜索了这个问题，但我发现的只是一些抓取工具，它们找不到自行抓取的链接。我也在搜索“站点地图生成器”、“网页机器人”、“自动抓取”、“使用 Node 获取域上的所有页面”之类的内容，但没有带来任何结果。

我有一个抓取工具，需要处理一系列链接，例如我有一个页面 www.example.com/products/，我想在其中找到所有现有的子页面，例如 www.example.com/products/product1 .html、www.example.com/products/product2.html 等

你能告诉我如何在 Node 中实现它吗？

Answer 1

Lia*_*amB 5

看看 Crawler ( https://www.npmjs.org/package/crawler )。您可以使用它来抓取网站并保存链接。

Crawler是一个用Nodejs编写的网络蜘蛛。它为您提供了服务器上 jQuery 的全部功能，可以在异步下载大量页面时对其进行解析。刮擦应该简单又有趣！

归档时间：	11 年，2 月前
查看次数：	3851 次
最近记录：	11 年，2 月前