嗨,我正在编写一个程序,通过许多不同的URL,只检查它们是否存在.我基本上检查返回的错误代码是否为404.但是,当我检查超过1000个URL时,我希望能够非常快速地完成此操作.以下是我的代码,我想知道如何将其修改为快速工作(如果可能):
final URL url = new URL("http://www.example.com");
HttpURLConnection huc = (HttpURLConnection) url.openConnection();
int responseCode = huc.getResponseCode();
if (responseCode != 404) {
System.out.println("GOOD");
} else {
System.out.println("BAD");
}
Run Code Online (Sandbox Code Playgroud)
使用JSoup会更快吗?
我知道一些网站提供代码200并有自己的错误页面,但是我知道我正在检查的链接不这样做,所以这不是必需的.
Boilerpipe似乎工作得很好,但我意识到我不仅需要主要内容,因为许多页面没有文章,只有一些简短的描述链接到整个文本(这在新闻门户网站中很常见)和我不想丢弃这些短文.
因此,如果API执行此操作,请获取不同的文本部分/块以不同于单个文本的某种方式分割每个文本部分(仅在一个文本中都没有用),请报告.
我从随机网站下载了一些页面,现在我想分析页面的文本内容.
问题是网页有很多内容,如菜单,宣传,横幅等.
我想尝试排除与页面内容无关的所有内容.
以此页面为例,我不希望上面的菜单既不是页脚中的链接.
重要提示:所有页面都是HTML,是来自各种不同网站的页面.我需要建议如何排除这些内容.
目前,我认为从HTML中删除"menu"和"banner"类中的内容以及看起来像正确名称(第一个大写字母)的连续单词.
解决方案可以基于文本内容(没有HTML标记)或HTML内容(使用HTML标记)
编辑:我想在我的Java代码中执行此操作,而不是外部应用程序(如果可以的话).
我尝试了解析此问题中描述的HTML内容的方法:https://stackoverflow.com/questions/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering
我可以在Jsoup中填写表单,执行事件和javascript函数吗?如果是,我该怎么办?或者我应该去另一个解析器.
Jsoup中是否有一种方法可以从具有基本访问身份验证的网站加载文档?
我试图解析任何给定页面的HTML转储.我使用HTML Parser并尝试使用JSoup进行解析.
我在Jsoup中找到了有用的函数,但是在调用时遇到403错误 Document doc = Jsoup.connect(url).get();
我尝试了HTTPClient,以获得html转储,并且它在同一个网址上获得了成功.
为什么JSoup为同一个URL提供403,它提供来自公共http客户端的内容?难道我做错了什么?有什么想法吗?
我使用此方法将网页检索到org.jsoup.nodes.Document
对象:
myDoc = Jsoup.connect(myURL).ignoreContentType(true).get();
我该如何将这个对象写入HTML文件?的方法myDoc.html()
,myDoc.text()
并且myDoc.toString()
不输出文档中的所有元素.
javascript元素中的某些信息在解析时可能会丢失.例如,Instagram媒体页面源中的"时间戳".
我一直在编写一些代码来从Java中的某些页面获取一些数据,Jsoup是最好的库.但是,不幸的是我必须将整个代码移植到C/C++.但是我找不到在c ++上使用的任何体面的html解析器.是否有类似Jsoup的C++库或者如何实现类似的结果?
[目前我正在使用Curl获取页面的来源并漫游互联网以查找html解析器]
我想在这里登录
源代码
<HTML><HEAD><TITLE>:: Dhaka Electric Supply Company Limited (DESCO)::</TITLE>
<META http-equiv=Content-Type content="text/html; charset=utf-8">
<META http-equiv=Pragma content=no-cache>
<META http-equiv=imagetoolbar content=no>
<META content="Home Page of Dhaka Electric Supply Company Limited" name=description>
<META content="MSHTML 6.00.2900.2180" name=GENERATOR>
<style type="text/css">
img{
border:0px;
}
</style>
<script type="text/javascript" src="js/ajax-dynamic-content.js"></script>
<script type="text/javascript" src="js/ajax.js"></script>
<script type="text/javascript" src="js/ajax-tooltip.js"></script>
<link rel="stylesheet" href="css/ajax-tooltip.css" media="screen" type="text/css">
<link rel="stylesheet" href="css/ajax-tooltip-demo.css" media="screen" type="text/css">
<LINK media=all href="css/global.css" type=text/css rel=stylesheet>
</HEAD>
<BODY>
<DIV id=over style="DISPLAY: none"></DIV>
<DIV class=baselayout>
<DIV class=pagetopshadow></DIV>
<DIV class=basebg>
<DIV class=pageleft></DIV>
<DIV …
Run Code Online (Sandbox Code Playgroud)