Bri*_*unt 1 regex unicode quotes character-properties
是否有一个简单的正则表达式来匹配所有unicode引号?或者是否必须像这样手动编码:
quotes = ur"[\"'\u2018\u2019\u201c\u201d]"
Run Code Online (Sandbox Code Playgroud)
谢谢你的阅读.
布赖恩
Python不支持Unicode属性,因此你不能使用Pi和Pf属性,所以我猜你的解决方案就好了.
你可能还想考虑一个令人遗憾的使用的"虚引号" - 尖锐的重音(´和):\ '\u0060 and\ u00B4`.
然后有guillemets(« » ‹ ›),你也想要那些吗?使用\u00BB\u203A\u00AB\u2039这些.
此外,您的命令有一个小错误:您正在为quotes字符串添加反斜杠(因为您使用的是原始字符串).请改用三引号字符串.
>>> quotes = ur"[\"'\u2018\u2019\u201c\u201d\u0060\u00b4]"
>>> "\\" in quotes
True
>>> quotes
u'[\\"\'\u2018\u2019\u201c\u201d`\xb4]'
>>> quotes = ur"""["'\u2018\u2019\u201c\u201d\u0060\u00b4]"""
>>> "\\" in quotes
False
>>> quotes
u'["\'\u2018\u2019\u201c\u201d`\xb4]'
Run Code Online (Sandbox Code Playgroud)
引号通常具有Unicode类别Pi(标点符号,初始引用)或Pf(标点符号,最终引用).你必须处理好"中性"引号'和"手动.
| 归档时间: |
|
| 查看次数: |
2491 次 |
| 最近记录: |