python将未知字符转换为ascii

Question

在我正在处理的文本文件中,我有像这样的字符.不确定它们是什么.

我想知道如何删除/转换这些字符.

我试图通过使用.encode('ascii','ignore')将其转换为ascii.python告诉我char不是0,128

我也尝试过unicodedata,unicodedata.normalize('NFKD',text).encode('ascii','ignore'),同样的错误

有人帮吗？

谢谢!

Answer 1

您始终可以使用您显示的代码来使用Unicode字符串:

my_ascii = my_uni_string.encode('ascii', 'ignore')

如果这给你一个错误,那么你真的没有一个Unicode字符串开始.如果这是真的,那么你有一个字节串.您需要知道它使用的编码,您可以将其转换为Unicode字符串:

my_uni_string = my_byte_string.decode('utf8')

(假设您的编码是UTF-8).

字节字符串和Unicode字符串之间的这种分割可能会令人困惑.我的演讲,实用的Unicode,或者,我如何阻止疼痛可以帮助你保持一切.