Unicode指定了您可以对拉丁字符进行的一系列修改。如何在python中将这些unicode字符转换为香草拉丁字符?
明确地说,我不是在问如何摆脱字母的重音。我要问的是,如何转换在语言上具有相同含义的东西,但是某些修饰的显示(例如底片,环绕,封闭在盒子类型的显示中)。
例如,如何转换
°°c
至
°原始°c
(剥离这些非语言字符将是一个单独的任务)
这并不完美,但是您正在寻找的是Unicode Decomposition之类的东西。Unicode规范化和分解的概念是一本自己的书。
幸运的是,对于一些又快又脏的事情,Python 为您提供了此内置功能!
>>> import unicodedata
>>> unicodedata.normalize('NFKC', '°° c')
'°ORIGINAL° c'
Run Code Online (Sandbox Code Playgroud)