相关疑难解决方法(0)

除了XHTML自包含标记之外,RegEx匹配开放标记

我需要匹配所有这些开始标记:

<p>
<a href="foo">

Run Code Online (Sandbox Code Playgroud)

但不是这些:

<br />
<hr class="foo" />

Run Code Online (Sandbox Code Playgroud)

我想出了这个,并希望确保我做对了.我只抓住了a-z.

<([a-z]+) *[^/]*?>

Run Code Online (Sandbox Code Playgroud)

我相信它说:

找一个小于,然后
然后,查找(并捕获)az一次或多次
然后找到零个或多个空格
找到任何字符零次或多次,贪婪/,然后
找到一个大于

我有这个权利吗？更重要的是,你怎么看？

html regex xhtml

Jef*_*eff

2012 05-27

1323
推荐指数

36
解决办法

270万
查看次数

哪个HTML Parser最好？

我编写了很多解析器.到目前为止,我使用HtmlUnit无头浏览器进行解析和浏览器自动化.

现在,我想分开两个任务.

由于80%的工作只涉及解析,我想使用轻量级HTML解析器,因为在HtmlUnit中首先加载页面需要花费很多时间,然后获取源然后解析它.

我想知道哪个HTML解析器是最好的.如果它接近HtmlUnit解析器,解析器会更好.

编辑:

最好的,我至少需要以下功能:

速度
通过"id"或"name"或"tag type"轻松找到任何HtmlElement.

如果它不清除脏HTML代码,那对我来说没问题.我不需要清理任何HTML源代码.我只需要一种最简单的方法来移动HtmlElements并从中获取数据.

html java parsing html-parsing web-scraping

Yat*_*oel

2014 05-23

187
推荐指数

3
解决办法

17万
查看次数

用于Java的HTML/XML Parser

哪些HTML解析器具有以下功能:

快速
线程安全
可靠且无错误
解析HTML和XML
处理错误的HTML
有一个DOM实现
支持HTML4,JavaScript和CSS标记
相对简单,面向对象的API

你认为哪种解析器更好？

谢谢.

html java xml parsing dom

Sha*_*yan

2010 06-22

32
推荐指数

4
解决办法

2万
查看次数

标签统计

html ×3

java ×2

parsing ×2

dom ×1

html-parsing ×1

regex ×1

web-scraping ×1

xhtml ×1

xml ×1

除了XHTML自包含标记之外,RegEx匹配开放标记

哪个HTML Parser最好？

用于Java的HTML/XML Parser

标签 统计

标签统计