如何在python中将修饰的拉丁文unicode字符转换为普通拉丁文

xav*_*sjs 4 python unicode

Unicode指定了您可以对拉丁字符进行的一系列修改。如何在python中将这些unicode字符转换为香草拉丁字符?

明确地说,我不是在问如何摆脱字母的重音。我要问的是,如何转换在语言上具有相同含义的东西,但是某些修饰的显示(例如底片,环绕,封闭在盒子类型的显示中)。

例如,如何转换

°°c

°原始°c

(剥离这些非语言字符将是一个单独的任务)

Aly*_*sen 9

这并不完美,但是您正在寻找的是Unicode Decomposition之类的东西。Unicode规范化和分解的概念是一本自己的书。

幸运的是,对于一些又快又脏的事情,Python 为您提供了此内置功能

>>> import unicodedata
>>> unicodedata.normalize('NFKC', '°° c')
'°ORIGINAL° c'
Run Code Online (Sandbox Code Playgroud)