标签: jsoup

Java - 检查URL是否存在的最快方法

嗨,我正在编写一个程序,通过许多不同的URL,只检查它们是否存在.我基本上检查返回的错误代码是否为404.但是,当我检查超过1000个URL时,我希望能够非常快速地完成此操作.以下是我的代码,我想知道如何将其修改为快速工作(如果可能):

final URL url = new URL("http://www.example.com");
HttpURLConnection huc = (HttpURLConnection) url.openConnection();
int responseCode = huc.getResponseCode();

if (responseCode != 404) {
System.out.println("GOOD");
} else {
System.out.println("BAD");
}
Run Code Online (Sandbox Code Playgroud)

使用JSoup会更快吗?

我知道一些网站提供代码200并有自己的错误页面,但是我知道我正在检查的链接不这样做,所以这不是必需的.

java url jsoup

20
推荐指数
1
解决办法
3万
查看次数

如何仅从HTML页面中提取主要文本内容?

更新

Boilerpipe似乎工作得很好,但我意识到我不仅需要主要内容,因为许多页面没有文章,只有一些简短的描述链接到整个文本(这在新闻门户网站中很常见)和我不想丢弃这些短文.

因此,如果API执行此操作,请获取不同的文本部分/块以不同于单个文本的某种方式分割每个文本部分(仅在一个文本中都没有用),请报告.


问题

我从随机网站下载了一些页面,现在我想分析页面的文本内容.

问题是网页有很多内容,如菜单,宣传,横幅等.

我想尝试排除与页面内容无关的所有内容.

以此页面为例,我不希望上面的菜单既不是页脚中的链接.

重要提示:所有页面都是HTML,是来自各种不同网站的页面.我需要建议如何排除这些内容.

目前,我认为从HTML中删除"menu"和"banner"类中的内容以及看起来像正确名称(第一个大写字母)的连续单词.

解决方案可以基于文本内容(没有HTML标记)或HTML内容(使用HTML标记)

编辑:我想在我的Java代码中执行此操作,而不是外部应用程序(如果可以的话).

我尝试了解析此问题中描述的HTML内容的方法:https://stackoverflow.com/questions/7035150/how-to-traverse-the-dom-tree-using-jsoup-doing-some-content-filtering

html java information-retrieval jsoup

19
推荐指数
3
解决办法
2万
查看次数

Jsoup Java HTML解析器:执行javascript事件

我可以在Jsoup中填写表单,执行事件和javascript函数吗?如果是,我该怎么办?或者我应该去另一个解析器.

java html-parsing dom-events jsoup

19
推荐指数
1
解决办法
2万
查看次数

Jsoup与基本访问身份验证的连接

Jsoup中是否有一种方法可以从具有基本访问身份验证的网站加载文档?

java basic-authentication jsoup

19
推荐指数
2
解决办法
2万
查看次数

当apache.httpclient能够获取内容时,JSoup.connect会抛出403错误

我试图解析任何给定页面的HTML转储.我使用HTML Parser并尝试使用JSoup进行解析.

我在Jsoup中找到了有用的函数,但是在调用时遇到403错误 Document doc = Jsoup.connect(url).get();

我尝试了HTTPClient,以获得html转储,并且它在同一个网址上获得了成功.

为什么JSoup为同一个URL提供403,它提供来自公共http客户端的内容?难道我做错了什么?有什么想法吗?

java html-parsing jsoup

19
推荐指数
1
解决办法
8013
查看次数

如何使用Jsoup提取单独的文本节点?

我有这样一个元素:

<td> TextA <br/> TextB </td>
Run Code Online (Sandbox Code Playgroud)

如何单独提取TextA和TextB?

java html-parsing jsoup

17
推荐指数
1
解决办法
2万
查看次数

17
推荐指数
1
解决办法
3207
查看次数

如何将Jsoup文档保存到HTML文件?

我使用此方法将网页检索到org.jsoup.nodes.Document对象:

myDoc = Jsoup.connect(myURL).ignoreContentType(true).get();

我该如何将这个对象写入HTML文件?的方法myDoc.html(),myDoc.text()并且myDoc.toString()不输出文档中的所有元素.

javascript元素中的某些信息在解析时可能会丢失.例如,Instagram媒体页面源中的"时间戳".

java document jsoup

17
推荐指数
2
解决办法
2万
查看次数

Jsoup喜欢用于C++的html解析器

我一直在编写一些代码来从Java中的某些页面获取一些数据,Jsoup是最好的库.但是,不幸的是我必须将整个代码移植到C/C++.但是我找不到在c ++上使用的任何体面的html解析器.是否有类似Jsoup的C++库或者如何实现类似的结果?

[目前我正在使用Curl获取页面的来源并漫游互联网以查找html解析器]

html c++ css-selectors jsoup

16
推荐指数
3
解决办法
2万
查看次数

如何使用jsoup发布表单登录?

我想在这里登录 在此输入图像描述 源代码

<HTML><HEAD><TITLE>:: Dhaka Electric Supply Company Limited (DESCO)::</TITLE>
<META http-equiv=Content-Type content="text/html; charset=utf-8">
<META http-equiv=Pragma content=no-cache>
<META http-equiv=imagetoolbar content=no>
<META content="Home Page of  Dhaka Electric Supply Company Limited" name=description>
<META content="MSHTML 6.00.2900.2180" name=GENERATOR>
<style type="text/css">
    img{
        border:0px;
    }   
</style>
<script type="text/javascript" src="js/ajax-dynamic-content.js"></script>
<script type="text/javascript" src="js/ajax.js"></script>
<script type="text/javascript" src="js/ajax-tooltip.js"></script>   
<link rel="stylesheet" href="css/ajax-tooltip.css" media="screen" type="text/css">
<link rel="stylesheet" href="css/ajax-tooltip-demo.css" media="screen" type="text/css">
<LINK media=all href="css/global.css" type=text/css rel=stylesheet>


</HEAD> 
<BODY>
<DIV id=over style="DISPLAY: none"></DIV>
<DIV class=baselayout>
<DIV class=pagetopshadow></DIV>
<DIV class=basebg>
<DIV class=pageleft></DIV>
<DIV …
Run Code Online (Sandbox Code Playgroud)

java jsoup

16
推荐指数
1
解决办法
3万
查看次数