解析Java中的元标记

Question

我有一组HTML文档,我需要解析<head>部分中<meta>标记的内容.这些是我感兴趣的唯一HTML标签,即我不需要解析<body>部分中的任何内容.

我试图使用JDom提供的XPath支持来解析这些值.但是,由于<body>部分中的许多HTML都不是有效的XML,因此效果不佳.

有没有人对我如何以可以处理格式错误的HTML的方式解析这些标记值有任何建议？

干杯,唐

Answer 1

您可以使用Jericho HTML Parser.特别是,看看这个,看看如何找到特定的标签.