rob*_*s85 34 python utf-8 python-2.x
是否有任何通用方法来检测字符串字符集?我用户IPTC标签,没有已知的编码.我需要检测它,然后将它们更改为utf-8.
有人可以帮忙吗?
小智 17
这有点晚了,但还有另一个解决方案:尝试使用pyicu.
一个例子:
import icu
def convert_encoding(data, new_coding='UTF-8'):
coding = icu.CharsetDetector(data).detect().getName()
if new_coding.upper() != coding.upper():
data = unicode(data, coding).encode(new_coding)
return data
Run Code Online (Sandbox Code Playgroud)
tea*_*uit 14
如果您想使用cchardet,可以使用此功能.
import cchardet
def convert_encoding(data, new_coding = 'UTF-8'):
encoding = cchardet.detect(data)['encoding']
if new_coding.upper() != encoding.upper():
data = data.decode(encoding, data).encode(new_coding)
return data
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
65183 次 |
| 最近记录: |