http连接的最佳java lib?

Jam*_*mes 8 java

大家好我正在编写一个简单的网页抓取脚本,需要连接到网页,自动跟踪302重定向,给我链接的最终网址,让我抓住HTML.

做这些事情的首选java lib是什么?

谢谢

Bal*_*usC 9

您可以使用Apache HttpComponents Client(或"普通的Java SE内置和详细URLConnectionAPI").对于HTML解析/遍历/操作部分,Jsoup可能很有用.

请注意,有点像样的爬虫应该遵守robots.txt.您可能想看一下现有的基于Java的webcrawler,比如J-Spider Apache Nutch.