如何使用 Node.js 创建网络爬虫？

Question

如何使用 Node.js 创建网络爬虫？

cor*_*zza 5 javascript web-crawler node.js

我最近对搜索引擎的工作方式感兴趣，我发现他们使用“机器人”或“网络爬虫”。我立即开始想知道这些东西是如何工作的，我想创造一个！那么，首先：您如何制作一个从服务器请求页面的程序？如果你给我一个简单的 JavaScript 示例（我使用 Node 作为普通脚本语言运行它），那就太棒了。接下来，有没有让我解释 HTML 的 Node 模块？为我创建一个 DOM 以便我可以循环浏览所有链接等等？如果我错了，请纠正我，但我想它是这样完成的...也热烈欢迎 C++、C 或 Python 中的任何示例，尽管我更喜欢 JS 或 Python，因为我更熟悉高级脚本语言。

Answer 1

Tom*_*rdt 5

获取 HTTP 页面：node http.get（示例在那里）
DOM 文档：jsdom（还包括示例）

归档时间：	14 年，2 月前
查看次数：	6517 次
最近记录：	14 年，2 月前