如何将UTF-8转换为HTML实体中的文本?

Meh*_*ahi 4 c# encoding utf-8 html-entities

我有一个从互联网下载页面的下载程序.每个页面的编码是不同的,有些是UTF-8,有些是Unicode.例如:a显示'a'字符; 这个字符的页面.我们应该将此编码转换为普通文本.

UnicodeEncoding在c#中使用过这个课程,但是他们没有帮助我.

如何将此编码解码为真实字符?是否有一个类或方法来转换它?

谢谢 .

Mar*_*ell 6

那是html编码的; 试试HtmlDecode?(您需要对System.Web.dll的引用)


Mik*_*son 5

html页面中的文本以&开头,以&开头,以HTML编码.

您可以使用以下方法解码这些:

string html = ...; //your html
string decoded = System.Web.HttpUtility.HtmlDecode( html );
Run Code Online (Sandbox Code Playgroud)

另请参阅从Internet下载HTML以获取有关如何确保以正确的字符集下载页面的代码后更改字符串中的字符.