像垃圾字符一样的垃圾字符列表

Question

像垃圾字符一样的垃圾字符列表

我正在使用librets从我的RETS服务器检索数据.以某种方式librets编码方法不起作用,我在输出中收到一些奇怪的字符.我注意到'''这样的字符被替换为''.我无法找到librets的修复,所以我决定在下载数据后用实际值替换这些垃圾追踪器.我需要的是这样的垃圾字符串及其等效字符的列表.我用谷歌搜索但没有找到任何资源.任何人都可以指向我这样的垃圾信件列表及其实际值或一段可以生成这样的信件的代码.

感谢名单

Answer 1

lib*_*rik 11

搜索术语"UTF-8",因为这就是你所看到的.

UTF-8是一种将Unicode字符表示为字节序列的方法.("Unicode字符"是人类语言中使用的全部字母和符号.)通常,一个Unicode字符在UTF-8中变为1,2或3个字节.当使用Windows通常使用的字符集显示这些字节(0到255之间的数字)时,它们显示为"垃圾" - 在这种情况下,3"垃圾字母"实际上是UTF-8编码的3个字节.

在您的示例中,您从智能引号字符开始’.它在Unicode中的表示是数字8217,或U + 2019(2019是8217的十六进制).(搜索"的Unicode" Unicode字符和它们的数量的完整列表.)的UTF-8表示的数量8217的是三个字节序列226,128,153.当您将这三个字节显示为字符时,使用Windows"CP-1252"字符编码(在美国Windows上显示文本的普通方式),它们显示为â€™.(搜索"CP-1252"以查看字节和字符表.)

我没有任何清单.但是,如果您使用内置支持Unicode和UTF-8的语言编写程序,则可以创建一个程序.我所能做的只是解释你所看到的.

如果有一种方法可以告诉librets在下载时使用UTF-8,那么这可能会自动解决您的问题.我对librets一无所知,但现在您知道术语"UTF-8",您可能会取得进步.

+1同意并强调:服务器很可能正在做正确的事情,您需要调整代码或工具.在最简单的情况下,可能只需要配置您正在使用的查看工具来检查结果,以显示UTF-8而不是CP-1252或ISO-8859-1等等. (2认同)

归档时间：	13 年，4 月前
查看次数：	11270 次
最近记录：	7 年，6 月前