Android从html获取文本

Rob*_*toq 6 html java tags android

我得到一个特殊的HTML代码:

< p>这是< a href =" http://www.test.hu">测试链接</a> 这是一个带有特殊字符的示例文本:&#233; va</p>

(之前没有空格; char,但如果我不插入空格,则stackoverflow格式化它)

这不是一个通常的HTML代码,但如果我粘贴在一个空的html页面,浏览器会显示正常的标签:

< p >这是< 一个 HREF = "http://www.test.hu">测试链路< / A >,这是一个样本文本的特殊字符:EVA < / P >

此代码将显示在浏览器中:

这是一个测试链接.这是一个带有特殊字符的示例文本:éva

所以我想得到这个文本,但我不能使用Html.fromHtml,因为我使用的组件不支持Spanned.我想尝试StringEscapeUtils,但我无法导入它.

如何更换特殊字符并删除标签?

Com*_*are 1

编写一个解析器,与在任何其他必须解析数据的情况下没有什么不同。

现在,如果您可以将其作为普通的未转义 HTML 获取,则可以使用各种开源 Java HTML 解析器。如果您要像第一个示例中那样使用转义的 HTML,则必须自己编写解析器。