wil*_*kat 9 encoding unicode chinese
我背负着一堆文件,它们的名称都是乱码,无法辨认。尽管我或多或少知道这些名称最初包含什么,但手动修复它们会带来很多麻烦,所以我正在寻找一种自动执行此操作的方法。
\n这些汉字可能会变成这样:
\n### original => garbled\n### UTF-8 UTF-8\n### UCS-2 UCS-2\n\n\xe9\x9b\xa8\xe4\xb8\xad => \xe2\x95\x99\xd1\x8a\xe2\x95\x93\xe2\x95\xa8\ne9 9b a8 e4 b8 ad e2 95 99 d1 8a e2 95 93 e2 95 a8\n96e8 4e2d 2559 044a 2553 2568\n\n\xe7\x85\xa7\xe7\x89\x87 => \xe2\x95\x92\xe2\x95\x92\xe2\x95\x9e\xd0\xbc\ne7 85 a7 e7 89 87 e2 95 92 e2 95 92 e2 95 9e d0 bc\n7167 7247 2552 2552 255e 043c\n\n\xe5\xa5\xb3\xe4\xba\xba => \xe2\x94\xbc\xd0\xbe\xe2\x95\x9a\xe2\x95\xa6\ne5 a5 b3 e4 ba ba e2 94 bc d0 be e2 95 9a e2 95 a6\n5973 4eba 253c 043e 255a 2566\n\n\xe7\xab\xa5\xe5\xbf\x83 => \xe2\x95\x90\xd0\xbf\xe2\x95\xa8\xe2\x94\x80\ne7 ab a5 e5 bf 83 e2 95 90 d0 bf e2 95 a8 e2 94 80\n7ae5 5fc3 2550 043f 2568 2500\n\n\xe7\xbb\xbf\xe8\x82\xa5\xe7\xba\xa2\xe7\x98\xa6 => \xe2\x94\xac\xe2\x95\xa0\xe2\x95\x96\xe2\x95\xa9\xe2\x95\x91\xd1\x8c\xe2\x95\xa9\xe2\x96\x8c\ne7 bb bf e8 82 a5 e7 ba a2 e7 98 a6 e2 94 ac e2 95 a0 e2 95 96 e2 95 a9 e2 95 91 d1 8c e2 95 a9 e2 96 8c\n7eff 80a5 7ea2 7626 252c 2560 2556 2569 2551 044c 2569 258c\n\n
Run Code Online (Sandbox Code Playgroud)\n我以前见过类似的事情发生过,例如,当 UTF-8 编码的序列被错误地解释为单字节(例如 Latin-1 或 CP1251),然后再次转换为 UTF-8 时,但这似乎并不这里就是这种情况。
\n实际上并不能保证原始编码是 UTF-8,它可能是 GB 或中国使用的其他旧编码。
\n有任何想法吗?
\nuse*_*686 14
\xe2\x95\x99\xd1\x8a\xe2\x95\x93\xe2\x95\xa8
位于d3 ea d6 d0
IBM 代码页 866 中,该代码页也\xe9\x9b\xa8\xe4\xb8\xad
位于 GB2312、GBK 和 CP936 代码页中。因此,这很可能是相当正常的代码页错误检测(将 GB2312 文本检测为 IBM866)。
echo e2 95 99 d1 8a e2 95 93 e2 95 a8 | unhex | iconv -t cp866 | iconv -f gb2312\n
Run Code Online (Sandbox Code Playgroud)\n
此类错误的常见原因是跨文化的压缩/解压缩,\虽然我不能断言您的情况发生了这种情况。
\n您提供的示例似乎与文章中描述的示例有些相似\n解压后的中文文件名损坏\非第 3 行:
\n\n更多情况请参阅文章\n Zip 文件和编码\xe2\x80\x93 我讨厌你,\n其中给出了一个字符的三种不同编码\n的另一个示例,具体取决于该字符的压缩位置:
\n文件名 | 在 Windows 中压缩 | Linux 中的压缩 | Mac 操作系统中的 Zip |
---|---|---|---|
\xc3\xb1 | a4(扩展 US-ASCII/CP437) | C3 B1 (UTF-8 NFC) | 6E CC 83(UTF-8 NFD) |
对于中文,旧的编码方法可以提供更多的编码。
\n如果您正在寻找一种自动方法来撤消乱码名称,那么在不知道原始编码和所涉及的实用程序和操作系统的情况下,我什至不知道从哪里开始。
\n如果它们与上面的第 3 行类似,您可以首先在 Linux 中压缩\n然后在 Windows GB18030 中解压缩,或者类似的尝试\n以便反向执行这些压缩/解压缩操作。
\n 归档时间: |
|
查看次数: |
1999 次 |
最近记录: |