设置crawler4j的指南

Wai*_* II 5 java web-crawler crawler4j

我想设置抓取工具抓取一个网站,比如说博客,然后只获取网站中的链接并将链接粘贴到文本文件中.你可以一步一步地指导我设置爬虫吗?我正在使用Eclipse.

Aha*_*med 0

Jsoup会做你需要的 html 解析的一切。Jsoup是一个用于处理html源代码的java api。你可以得到

  1. 表,您可以使用它解析每一行或每一列。
  2. 该 html 的所有链接和源导入的列表(如 css 和 js 文件等导入)。
  3. 特定标签的数据。

和更多。

为了您的目的,这里是示例代码。

希望对你有帮助。