我的数据库有问题,一些西里尔文字看起来像这样"\xc3\x90\xc2\xb1\xc3\x90\xc2\xbe\xc3\x90\xc2\xbb\xc3\x90\xc2\xbd\xc3\x90\xc2\xbe \xc3\x90\xc2\xb1\xc3\x90\xc2\xb0\xc3\x91 \xc3\x90\xc2\xb0\xc3\x90\xc2\xbc\xc3\x91\xc5\x92\xc3\x90\xc2\xb4\xc3\x91\xe2\x82\xac\xc3\x91\xc6\x92\xc3\x91\xc6\x92\xc3\x90\xc2\xbb\xc3\x90\xc2\xb6 \xc3\x91\xe2\x80\xa1 \xc3\x90"。有没有办法将其转换回人类可读的格式。
我需要阅读这件事的实际背景。
\n我是Python的初学者.我在这个问题上尝试了很多来自stackoverflow答案的方法,但它们都不适用于我的脚本.
我有这个小脚本要使用,但是我无法获得.txt文件的巨大结果,所以我可以分析数据.如何将打印输出重定向到计算机上的txt文件?
from nltk.util import ngrams
import collections
with open("text.txt", "rU") as f:
sixgrams = ngrams(f.read().decode('utf8').split(), 2)
result = collections.Counter(sixgrams)
print result
for item, count in sorted(result.iteritems()):
if count >= 2:
print " ".join(item).encode('utf8'), count
Run Code Online (Sandbox Code Playgroud)