设置crawler4j的指南

Wai*_* II 5 java web-crawler crawler4j

我想设置抓取工具抓取一个网站,比如说博客,然后只获取网站中的链接并将链接粘贴到文本文件中.你可以一步一步地指导我设置爬虫吗？我正在使用Eclipse.

Jsoup会做你需要的 html 解析的一切。Jsoup是一个用于处理html源代码的java api。你可以得到

表，您可以使用它解析每一行或每一列。
该 html 的所有链接和源导入的列表（如 css 和 js 文件等导入）。
特定标签的数据。

和更多。

为了您的目的，这里是示例代码。

希望对你有帮助。

归档时间：	15 年前
查看次数：	2548 次
最近记录：	8 年，5 月前

IntelliJ在鼠标悬停时显示JavaDocs工具提示 595

如何以编程方式确定Java中的操作系统？ 495

确定String是否是Java中的整数 287

Selenium WebDriver - 测试元素是否存在 153

Java中Void类的需求是什么 58

Java中的随机加权选择 58

如何在Mac上运行Eclipse -clean？ 57

如何防止Gson将整数表示为浮点数 55

Java版本之间是否存在后向不兼容的具体示例？ 48

无法从 scrapy.CrawlerProcess 获取 Scrapy Stats 4

"yield"关键字有什么作用？ 9664

从数组创建ArrayList 3441

什么是sleep()的JavaScript版本？ 2115

如果目录尚不存在,如何mkdir？ 1784

常规演员与static_cast与dynamic_cast 1661

C#在foreach中重用变量是否有原因？ 1631

为什么我们需要C++中的虚函数？ 1223

在Python中将两个列表转换为字典 1101

将绘图保存到图像文件,而不是使用Matplotlib显示它 1060

用于Python的IDE是什么？ 1028