pku*_*mar 0 python character-encoding
我想知道我们是否可以找出用于编码字符串的编码类型?或者至少找出python3.x中给定的实体或单词是字符串还是字节.提前致谢.
我会推荐chardet图书馆.它基于Mozilla的一些工作,似乎满足您的需求.
>>> import urllib
>>> rawdata = urllib.urlopen('http://yahoo.co.jp/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'encoding': 'EUC-JP', 'confidence': 0.99}
Run Code Online (Sandbox Code Playgroud)
并且在该页面上还有更复杂的用例,但是在核心,您可以简单地传入一个字符串并让它返回一组潜在的编码以及他们对该猜测的信心.