UnicodeDecodeError:“charmap”编解码器无法解码位置 100 中的字节 0x90:字符映射到 <未定义>

Abd*_*ser 4 python xml wordnet python-unicode

我在同一目录中有两个文件:

  1. http://nlp.lsi.upc.edu/awn/AWNDatabaseManagement.py.gz

  2. 阿拉伯语 WordNet 的 xml 数据库 ( http://nlp.lsi.upc.edu/awn/get_bd.php ) upc_db.xml

当我尝试运行 .py 文件以给出图像中的错误时,我试图检查 .py 文件是否正常工作,以便我可以将其导入为阿拉伯语单词的 WordNet

你能帮我解决这个问题吗?

谢谢

错误图像

Muh*_*aal 7

encoding="utf-8"要读取任何二进制文件/db,请在打开文件/db 时使用。UTF-8 能够使用一到四个一字节代码单元对 Unicode 中的所有 1,112,064 个有效字符代码点进行编码。所以,简单的就是最好的。

  • `编码=“uft-8”` => `编码=“utf-8”` (3认同)

Abd*_*ser 5

要读取上面的二进制文件,请使用

ent = open(ent, 'rb')
Run Code Online (Sandbox Code Playgroud)

代替,

ent = open(ent)
Run Code Online (Sandbox Code Playgroud)