在html标签之间获取文本

0 java regex matcher

可能重复:RegEx匹配HTML标记并提取文本

我需要在html标签之间得到文本<p></p>或者其他什么.我的模式就是这个

Pattern pText = Pattern.compile(">([^>|^<]*?)<");
Run Code Online (Sandbox Code Playgroud)

任何人都知道一些更好的模式,因为这个不是很有用.我需要它来索引来自网页的内容.

谢谢

dan*_*ben 5

所以即将降临在你身上.但是让我成为第一个说,不要使用正则表达式来解析HTML. 是一个Java HTML Parsers列表.环顾四周,直到你看到一个适合你的幻想的API,然后使用它.