utf-8 德语变音符号有两种不同的字节码表示形式

xir*_*uru 2 utf-8 python-3.x

在utf-8中,德文字母“\xc3\xb6”有两种形式,一种是:\nb\'\\xc3\\xb6\',另一种是b\'o\\xcc\\x88\'

\n\n

以下代码位于 python 3.6.3 中

\n\n
In [1]: b\'\\xc3\\xb6\'.decode(\'utf-8\')\nOut[1]: \'\xc3\xb6\'\n\nIn [2]: b\'o\\xcc\\x88\'.decode(\'utf-8\')\nOut[2]: \'o\xcc\x88\'\n
Run Code Online (Sandbox Code Playgroud)\n\n

这会导致搜索带有“\xc3\xb6”的单词时出现问题。如何将第二种形式转换为第一种形式?

\n

Cod*_*odo 8

通过Unicode 规范化来运行它。使用NFC作为形式