我想从给定的HTML代码中提取纯文本.我尝试过使用regex并得到了
String target = val.replaceAll("<a.*</a>", "");.
我的主要要求是,我想删除之间的所有内容<a>和 </a>(包括链接名称).使用上面的代码时,所有其他内容也被删除.
<a href="www.google.com">Google</a> 这是Google链接
<a href="www.yahoo.com">Yahoo</a> 这是一个雅虎链接
在这里,我想删除之间的数值<a>和</a>.最终的输出应该
This is a Google Link This is a Yahoo Link
p.s*_*w.g 21
使用非贪婪量词(*?).例如,要完全删除链接:
String target = val.replaceAll("<a.*?</a>", "");
Run Code Online (Sandbox Code Playgroud)
或者仅使用链接标记的内容替换链接:
String target = val.replaceAll("<a[^>]*>(.*?)</a>", "This is a $1 Link");
Run Code Online (Sandbox Code Playgroud)
但是,我仍然建议使用适当的DOM操作API.