Dón*_*nal 2 html java xml parsing
我有一组HTML文档,我需要解析<head>部分中<meta>标记的内容.这些是我感兴趣的唯一HTML标签,即我不需要解析<body>部分中的任何内容.
我试图使用JDom提供的XPath支持来解析这些值.但是,由于<body>部分中的许多HTML都不是有效的XML,因此效果不佳.
有没有人对我如何以可以处理格式错误的HTML的方式解析这些标记值有任何建议?
干杯,唐
bdu*_*riu 6
您可以使用Jericho HTML Parser.特别是,看看这个,看看如何找到特定的标签.
归档时间:
17 年,1 月 前
查看次数:
4124 次
最近记录:
13 年,9 月 前