Jev*_*tin 3 sitemap robots.txt node.js
我正在尝试使用 Node.js 查找域上的所有页面。我在 Stackoverflow 上搜索,但我发现的只是 Ruby 的这个线程:Find all the web Pages in a domain and its subdomains - 我有同样的问题,但对于 Node.js 来说。我也用谷歌搜索了这个问题,但我发现的只是一些抓取工具,它们找不到自行抓取的链接。我也在搜索“站点地图生成器”、“网页机器人”、“自动抓取”、“使用 Node 获取域上的所有页面”之类的内容,但没有带来任何结果。
我有一个抓取工具,需要处理一系列链接,例如我有一个页面 www.example.com/products/,我想在其中找到所有现有的子页面,例如 www.example.com/products/product1 .html、www.example.com/products/product2.html 等
你能告诉我如何在 Node 中实现它吗?
看看 Crawler ( https://www.npmjs.org/package/crawler )。您可以使用它来抓取网站并保存链接。
Crawler是一个用Nodejs编写的网络蜘蛛。它为您提供了服务器上 jQuery 的全部功能,可以在异步下载大量页面时对其进行解析。刮擦应该简单又有趣!
归档时间: |
|
查看次数: |
3851 次 |
最近记录: |