非英语文本python不可读

Question

非英语文本python不可读

我正在编写一个爬虫并获取非英语网站的标题.当我在我的控制台中打印标题时,得到这样的结果:

à¦¶à§à¦°à§à¦²à¦à§à¦à¦¾à¦° à¦à¦¾à¦²à§ à¦¸à§à¦à¦¨à¦¾
à¦«à¦à¦¿à¦°à¦¾à¦ªà§à¦²à§ à¦¹à¦¾à¦¤à¦¬à§à¦®à¦¾ à¦¬à¦¿à¦¸à§à¦«à§à¦°à¦£, à¦à¦à¦ à§§à§¬
à¦¦à§à¦ à¦¬à¦¾à¦à¦²à¦¾à¦¦à§à¦¶à¦¿à¦à§ à¦¨à¦¿à§à§ à¦à§à¦à§ à¦¬à¦¿à¦à¦¸à¦à¦«
à¦à¦¾à¦®à¦¾à§à¦¾à¦¤ à¦¨à§à¦¤à¦¾ à¦¸à§à¦²à¦¿à¦®à¦¸à¦¹ à¦¦à§à¦à¦¨ à¦à§à¦°à§à¦ªà§à¦¤à¦¾à¦°

Run Code Online (Sandbox Code Playgroud)

我不知道如何从上面的字符串中获取正确的文本.

任何的想法？

提前致谢.

Answer 1

Juk*_*ela 5

这看起来像UTF-8编码的孟加拉语文本,带有散布的HTML字符引用,错误地解释为windows-1252字符.也可以是其他任何事情.

在抓取网页时,您应该在决定字符编码时大致了解浏览器和常规搜索引擎所做的事情.这远非微不足道.在HTML5 RC中,第8.2.2.1节确定字符编码是尝试描述该过程.

归档时间：	12 年，9 月前
查看次数：	201 次
最近记录：	12 年，9 月前