如何使用 Node.js 创建网络爬虫?

cor*_*zza 5 javascript web-crawler node.js

我最近对搜索引擎的工作方式感兴趣,我发现他们使用“机器人”或“网络爬虫”。我立即开始想知道这些东西是如何工作的,我想创造一个!那么,首先:您如何制作一个从服务器请求页面的程序?如果你给我一个简单的 JavaScript 示例(我使用 Node 作为普通脚本语言运行它),那就太棒了。接下来,有没有让我解释 HTML 的 Node 模块?为我创建一个 DOM 以便我可以循环浏览所有链接等等?如果我错了,请纠正我,但我想它是这样完成的...也热烈欢迎 C++、C 或 Python 中的任何示例,尽管我更喜欢 JS 或 Python,因为我更熟悉高级脚本语言。

Tom*_*rdt 5

  • 获取 HTTP 页面:node http.get(示例在那里)
  • DOM 文档:jsdom(还包括示例)