标准化 python 中的双引号、单引号和撇号

Dan*_*Man 2 regex quotes nlp python-3.x double-quotes

由于我正在使用许多不同的字体,并且对每个符号都有特殊处理,因此我想标准化文本字体中的所有引号和撇号条目。

我正在寻找与此条目类似的跳线内容

content=re.sub(r'\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]', '\n', content)
Run Code Online (Sandbox Code Playgroud)

或连字符

content = regex.sub(r'\p{Pd}+', '-', content)
Run Code Online (Sandbox Code Playgroud)

你能帮助我吗?

Wik*_*żew 6

如果您使用Uniview工具,您可以搜索包含引用“单引号”、“双引号”、“撇号”的所有 Unicode 符号,例如

\n

在此输入图像描述

\n

以下是一些经过修剪的输出:

\n

单引号,[\\u02BB\\u02BC\\u066C\\u2018-\\u201A\\u275B\\u275C](参见演示):

\n
    \n
  • \xca\xbb- \xe2\x80\x8e02BB 修饰符字母变成逗号
  • \n
  • \xca\xbc- \xe2\x80\x8e02BC 修饰符字母撇号
  • \n
  • \xd9\xac- \xe2\x80\x8e066C 阿拉伯千位分隔符
  • \n
  • \xe2\x80\x98- \xe2\x80\x8e2018 左单引号
  • \n
  • \xe2\x80\x99- \xe2\x80\x8e2019 右单引号
  • \n
  • \xe2\x80\x9a- \xe2\x80\x8e201A 单低 9 引号
  • \n
  • \xe2\x9d\x9b- \xe2\x80\x8e275B 重单转逗号引号装饰
  • \n
  • \xe2\x9d\x9c- \xe2\x80\x8e275C 重单逗号引号装饰
  • \n
\n

双引号,[\\u201C-\\u201E\\u2033\\u275D\\u275E\\u301D\\u301E](参见演示):

\n
    \n
  • \xe2\x80\x9c- \xe2\x80\x8e201C 左双引号
  • \n
  • \xe2\x80\x9d- \xe2\x80\x8e201D 右双引号
  • \n
  • \xe2\x80\x9e- \xe2\x80\x8e201E 双低 9 引号
  • \n
  • \xe2\x80\xb3- \xe2\x80\x8e2033 双素数
  • \n
  • \xe2\x9d\x9d- \xe2\x80\x8e275D 重双转逗号引号装饰
  • \n
  • \xe2\x9d\x9e -\xe2\x80\x8e275E 重双逗号引号装饰
  • \n
  • \xe3\x80\x9d -\xe2\x80\x8e301D 反转双引号
  • \n
  • \xe3\x80\x9e- \xe2\x80\x8e301E 双引号
  • \n
\n

撇号,[\\u0027\\u02B9\\u02BB\\u02BC\\u02BE\\u02C8\\u02EE\\u0301\\u0313\\u0315\\u055A\\u05F3\\u07F4\\u07F5\\u1FBF\\u2018\\u2019\\u2032\\uA78C\\uFF07](参见演示):

\n
    \n
  • \'- \xe2\x80\x8e0027 撇号
  • \n
  • \xca\xb9\xe2\x80\x8e- 02B9 修饰符字母素数
  • \n
  • \xca\xbb\xe2\x80\x8e- 02BB 修饰符字母变成逗号
  • \n
  • \xca\xbc\xe2\x80\x8e- 02BC 修饰符字母撇号
  • \n
  • \xca\xbe- \xe2\x80\x8e02BE 修饰符字母右半环
  • \n
  • \xcb\x88- \xe2\x80\x8e02C8 修饰符字母垂直线
  • \n
  • \xcb\xae- \xe2\x80\x8e02EE 修饰符字母双撇号
  • \n
  • \xcc\x81 \xe2\x80\x8e- 0301 结合尖锐的口音
  • \n
  • \xcc\x93- \xe2\x80\x8e0313 组合上面的逗号
  • \n
  • \xcc\x95- \xe2\x80\x8e0315 右上方组合逗号
  • \n
  • \xd5\x9a- \xe2\x80\x8e055A 亚美尼亚撇号
  • \n
  • \xd7\xb3- \xe2\x80\x8e05F3 希伯来语标点符号 GERESH
  • \n
  • \xdf\xb4- \xe2\x80\x8e07F4 NKO 高音撇号
  • \n
  • \xdf\xb5- \xe2\x80\x8e07F5 NKO 低音撇号
  • \n
  • \xe1\xbe\xbf- \xe2\x80\x8e1FBF 希腊语 PSILI
  • \n
  • \xe2\x80\x98- \xe2\x80\x8e2018 左单引号
  • \n
  • \xe2\x80\x99- \xe2\x80\x8e2019 右单引号
  • \n
  • \xe2\x80\xb2- \xe2\x80\x8e2032 PRIME
  • \n
  • \xea\x9e\x8c- \xe2\x80\x8eA78C 拉丁文小写字母 SALTILLO
  • \n
  • \xef\xbc\x87- \xe2\x80\x8eFF07 全宽撇号
  • \n
\n