phu*_*clv 10
这是我发现的一些角色。我首先通过查看一些可能的块来手动完成此操作。不过,我后来编写了一个 Python 脚本来自动执行此操作,您可以在本答案的末尾找到该脚本
\n\n| 两个字形 | 有向图 | Unicode 代码点 | 超文本标记语言 |
|---|---|---|---|
| 德兹,德兹,德兹 | \xc7\xb1、\xc7\xb2、\xc7\xb3 | U+01F1 U+01F2 U+01F3 | DZ Dz dz |
| D\xc5\xbd、D\xc5\xbe、d\xc5\xbe | \xc7\x84、\xc7\x85、\xc7\x86 | U+01C4 U+01C5 U+01C6 | DŽ Dž dž |
| IJ, ij | \xc4\xb2、\xc4\xb3 | U+0132 U+0133 | IJ ij |
| LJ,LJ,LJ | \xc7\x87、\xc7\x88、\xc7\x89 | U+01C7 U+01C8 U+01C9 | LJ Lj lj |
| 新泽西州,新泽西州,新泽西州 | \xc7\x8a、\xc7\x8b、\xc7\x8c | U+01CA U+01CB U+01CC | NJ Nj nj |
| 非结扎 | 结扎 | 统一码 | 超文本标记语言 |
|---|---|---|---|
| AA、AA | \xea\x9c\xb2、\xea\x9c\xb3 | U+A732, U+A733 | Ꜳ ꜳ |
| AE、AE | \xc3\x86,\xc3\xa6 | U+00C6、U+00E6 | � � |
| 敖、敖 | \xea\x9c\xb4、\xea\x9c\xb5 | U+A734、U+A735 | Ꜵ ꜵ |
| 非盟、非盟 | \xea\x9c\xb6、\xea\x9c\xb7 | U+A736、U+A737 | Ꜷ ꜷ |
| 影音、影音 | \xea\x9c\xb8、\xea\x9c\xb9 | U+A738、U+A739 | Ꜹ ꜹ |
| AV、AV(带条) | \xea\x9c\xba、\xea\x9c\xbb | U+A73A、U+A73B | Ꜻ ꜻ |
| 哎呀呀 | \xea\x9c\xbc、\xea\x9c\xbd | U+A73C、U+A73D | Ꜽ ꜽ |
| 等 | U+1F670 | | |
| f\xe2\x80\x8cf | \xef\xac\x80 | U+FB00 | ff |
| f\xe2\x80\x8cf\xe2\x80\x8ci | \xef\xac\x83 | U+FB03 | ffi |
| f\xe2\x80\x8cf\xe2\x80\x8cl | \xef\xac\x84 | U+FB04 | ffl |
| f\xe2\x80\x8ci | \xef\xac\x81 | U+FB01 | fi |
| f\xe2\x80\x8cl | \xef\xac\x82 | U+FB02 | fl |
| 欧伊, 欧伊 | \xc5\x92、\xc5\x93 | U+0152, U+0153 | � � |
| 哦哦 | \xea\x9d\x8e, \xea\x9d\x8f | U+A74E、U+A74F | Ꝏ ꝏ |
| \xc5\xbfs,\xc5\xbfz | \xe1\xba\x9e、\xc3\x9f | U+1E9E、U+00DF | ß |
| 英石 | \xef\xac\x86 | U+FB06 | st |
| \xc5\xbft | \xef\xac\x85 | U+FB05 | ſt |
| 兹、兹 | \xea\x9c\xa8、\xea\x9c\xa9 | U+A728, U+A729 | Ꜩ ꜩ |
| 厄 | \xe1\xb5\xab | U+1D6B | ᵫ |
| 维,维 | \xea\x9d\xa0、\xea\x9d\xa1 | U+A760、U+A761 | Ꝡ ꝡ |
还有一些其他用于音标的连字,但看起来像拉丁字符
\n| 非结扎 | 结扎 | 统一码 | 超文本标记语言 |
|---|---|---|---|
| D b | \xc8\xb8 | U+0238 | ȸ |
| dz | \xca\xa3 | U+02A3 | ʣ |
| IJ, ij | \xc4\xb2、\xc4\xb3 | U+0132, U+0133 | IJ ij |
| LS | \xca\xaa | U+02AA | ʪ |
| lz | \xca\xab | U+02AB | ʫ |
| qp | \xc8\xb9 | U+0239 | ȹ |
| ts | \xca\xa6 | U+02A6 | ʦ |
| 用户界面 | \xea\xad\x90 | U+AB50 | ꭐ |
| 变成用户界面 | \xea\xad\x91 | U+AB51 | ꭑ |
https://en.wikipedia.org/wiki/List_of_precomposed_Latin_characters_in_Unicode#Digraphs_and_ligatures
\n除了 \xe2\x84\xbb 和 \xe2\x84\xa1 之外还有更多类似字母的符号,就像OP在评论中发现的那样:
\n\n\n\xe2\x84\x80 \xe2\x84\x81 \xe2\x85\x8d \xe2\x84\x85 \xe2\x84\x86 \xe2\x84\x94 \xe2\x84\xa0 \xe2\x84\xa2
\n
较长的字母主要来自CJK 兼容性块
\n| U+XXXX | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | 乙 | C | D | 乙 | F |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| U+338x | \xe3\x8e\x80 | \xe3\x8e\x81 | \xe3\x8e\x82 | \xe3\x8e\x83 | \xe3\x8e\x84 | \xe3\x8e\x85 | \xe3\x8e\x86 | \xe3\x8e\x87 | \xe3\x8e\x88 | \xe3\x8e\x89 | \xe3\x8e\x8a | \xe3\x8e\x8b | \xe3\x8e\x8c | \xe3\x8e\x8d | \xe3\x8e\x8e | \xe3\x8e\x8f |
| U+339x | \xe3\x8e\x90 | \xe3\x8e\x91 | \xe3\x8e\x92 | \xe3\x8e\x93 | \xe3\x8e\x94 | \xe3\x8e\x95 | \xe3\x8e\x96 | \xe3\x8e\x97 | \xe3\x8e\x98 | \xe3\x8e\x99 | \xe3\x8e\x9a | \xe3\x8e\x9b | \xe3\x8e\x9c | \xe3\x8e\x9d | \xe3\x8e\x9e | \xe3\x8e\x9f |
| U+33斧 | \xe3\x8e\xa0 | \xe3\x8e\xa1 | \xe3\x8e\xa2 | \xe3\x8e\xa3 | \xe3\x8e\xa4 | \xe3\x8e\xa5 | \xe3\x8e\xa6 | \xe3\x8e\xa7 | \xe3\x8e\xa8 | \xe3\x8e\xa9 | \xe3\x8e\xaa | \xe3\x8e\xab | \xe3\x8e\xac | \xe3\x8e\xad | \xe3\x8e\xae | \xe3\x8e\xaf |
| U+33Bx | \xe3\x8e\xb0 | \xe3\x8e\xb1 | \xe3\x8e\xb2 | \xe3\x8e\xb3 | \xe3\x8e\xb4 | \xe3\x8e\xb5 | \xe3\x8e\xb6 | \xe3\x8e\xb7 | \xe3\x8e\xb8 | \xe3\x8e\xb9 | \xe3\x8e\xba | \xe3\x8e\xbb | \xe3\x8e\xbc | \xe3\x8e\xbd | \xe3\x8e\xbe | \xe3\x8e\xbf |
| U+33Cx | \xe3\x8f\x80 | \xe3\x8f\x81 | \xe3\x8f\x82 | \xe3\x8f\x83 | \xe3\x8f\x84 | \xe3\x8f\x85 | \xe3\x8f\x86 | \xe3\x8f\x87 | \xe3\x8f\x88 | \xe3\x8f\x89 | \xe3\x8f\x8a | \xe3\x8f\x8b | \xe3\x8f\x8c | \xe3\x8f\x8d | \xe3\x8f\x8e | \xe3\x8f\x8f |
| U+33Dx | \xe3\x8f\x90 | \xe3\x8f\x91 | \xe3\x8f\x92 | \xe3\x8f\x93 | \xe3\x8f\x94 | \xe3\x8f\x95 | \xe3\x8f\x96 | \xe3\x8f\x97 | \xe3\x8f\x98 | \xe3\x8f\x99 | \xe3\x8f\x9a | \xe3\x8f\x9b | \xe3\x8f\x9c | \xe3\x8f\x9d | \xe3\x8f\x9e | \xe3\x8f\x9f |
类似 3 个字母的符号包括 \xe3\x8e\x88 \xe3\x8e\x91 \xe3\x8e\x92 \xe3\x8e\x93 \xe3\x8e\x94\xe3\x8f\x92 \xe3\x8f\ x95 \xe3\x8f\x96 \xe3\x8f\x99 \xe3\x8e\xaa \xe3\x8e\xab \xe3\x8e\xac \xe3\x8e\xad \xe3\x8f\x86 \xe3\x8f\xbf \ xe3\x8d\xb1... 字符最多的可能是 \xe3\x8e\x89 和 \xe3\x8e\xaf
\nUnicode 甚至还有罗马数字的代码点。这里可以找到另一个类似 4 个字母的字符:\xe2\x85\xa7
\n| U+XXXX | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | 乙 | C | D | 乙 | F |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| U+215x | \xe2\x85\x90 | \xe2\x85\x91 | \xe2\x85\x92 | \xe2\x85\x93 | \xe2\x85\x94 | \xe2\x85\x95 | \xe2\x85\x96 | \xe2\x85\x97 | \xe2\x85\x98 | \xe2\x85\x99 | \xe2\x85\x9a | \xe2\x85\x9b | \xe2\x85\x9c | \xe2\x85\x9d | \xe2\x85\x9e | \xe2\x85\x9f |
| U+216x | \xe2\x85\xa0 | \xe2\x85\xa1 | \xe2\x85\xa2 | \xe2\x85\xa3 | \xe2\x85\xa4 | \xe2\x85\xa5 | \xe2\x85\xa6 | \xe2\x85\xa7 | \xe2\x85\xa8 | \xe2\x85\xa9 | \xe2\x85\xaa | \xe2\x85\xab | \xe2\x85\xac | \xe2\x85\xad | \xe2\x85\xae | \xe2\x85\xaf |
| U+217x | \xe2\x85\xb0 | \xe2\x85\xb1 | \xe2\x85\xb2 | \xe2\x85\xb3 | \xe2\x85\xb4 | \xe2\x85\xb5 | \xe2\x85\xb6 | \xe2\x85\xb7 | \xe2\x85\xb8 | \xe2\x85\xb9 | \xe2\x85\xba | \xe2\x85\xbb | \xe2\x85\xbc | \xe2\x85\xbd | \xe2\x85\xbe | \xe2\x85\xbf |
| U+218x | \xe2\x86\x80 | \xe2\x86\x81 | \xe2\x86\x82 | \xe2\x86\x83 | \xe2\x86\x84 | \xe2\x86\x85 | \xe2\x86\x86 | \xe2\x86\x87 | \xe2\x86\x88 | \xe2\x86\x89 | \xe2\x86\x8a | \xe2\x86\x8b |
如果可以考虑普通数字,那么在封闭的字母数字中还有一些其他数字的代码点,例如 \xe2\x92\x86 \xe2\x92\x87 \xe2\x93\xb3 \xe2\x93\xb4
\n| U+XXXX | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | 乙 | C | D | 乙 | F |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| U+246x | \xe2\x91\xa0 | \xe2\x91\xa1 | \xe2\x91\xa2 | \xe2\x91\xa3 | \xe2\x91\xa4 | \xe2\x91\xa5 | \xe2\x91\xa6 | \xe2\x91\xa7 | \xe2\x91\xa8 | \xe2\x91\xa9 | \xe2\x91\xaa | \xe2\x91\xab | \xe2\x91\xac | \xe2\x91\xad | \xe2\x91\xae | \xe2\x91\xaf |
| U+247x | \xe2\x91\xb0 | \xe2\x91\xb1 | \xe2\x91\xb2 | \xe2\x91\xb3 | \xe2\x91\xb4 | \xe2\x91\xb5 | \xe2\x91\xb6 | \xe2\x91\xb7 | \xe2\x91\xb8 | \xe2\x91\xb9 | \xe2\x91\xba | \xe2\x91\xbb | \xe2\x91\xbc | \xe2\x91\xbd | \xe2\x91\xbe | \xe2\x91\xbf |
| U+248x | \xe2\x92\x80 | \xe2\x92\x81 | \xe2\x92\x82 | \xe2\x92\x83 | \xe2\x92\x84 | \xe2\x92\x85 | \xe2\x92\x86 | \xe2\x92\x87 | \xe2\x92\x88 | \xe2\x92\x89 | \xe2\x92\x8a | \xe2\x92\x8b | \xe2\x92\x8c | \xe2\x92\x8d | \xe2\x92\x8e | \xe2\x92\x8f |
| U+249x | \xe2\x92\x90 | \xe2\x92\x91 | \xe2\x92\x92 | \xe2\x92\x93 | \xe2\x92\x94 | \xe2\x92\x95 | \xe2\x92\x96 | \xe2\x92\x97 | \xe2\x92\x98 | \xe2\x92\x99 | \xe2\x92\x9a | \xe2\x92\x9b | \xe2\x92\x9c | \xe2\x92\x9d | \xe2\x92\x9e | \xe2\x92\x9f |
| U+24斧 | \xe2\x92\xa0 | \xe2\x92\xa1 | \xe2\x92\xa2 | \xe2\x92\xa3 | \xe2\x92\xa4 | \xe2\x92\xa5 | \xe2\x92\xa6 | \xe2\x92\xa7 | \xe2\x92\xa8 | \xe2\x92\xa9 | \xe2\x92\xaa | \xe2\x92\xab | \xe2\x92\xac | \xe2\x92\xad | \xe2\x92\xae | \xe2\x92\xaf |
| U+24Bx | \xe2\x92\xb0 | \xe2\x92\xb1 | \xe2\x92\xb2 | \xe2\x92\xb3 | \xe2\x92\xb4 | \xe2\x92\xb5 | \xe2\x92\xb6 | \xe2\x92\xb7 | \xe2\x92\xb8 | \xe2\x92\xb9 | \xe2\x92\xba | \xe2\x92\xbb | \xe2\x92\xbc | \xe2\x92\xbd | \xe2\x92\xbe | \xe2\x92\xbf |
| U+24Cx | \xe2\x93\x80 | \xe2\x93\x81 | \xe2\x93\x82 | \xe2\x93\x83 | \xe2\x93\x84 | \xe2\x93\x85 | \xe2\x93\x86 | \xe2\x93\x87 | \xe2\x93\x88 | \xe2\x93\x89 | \xe2\x93\x8a | \xe2\x93\x8b | \xe2\x93\x8c | \xe2\x93\x8d | \xe2\x93\x8e | \xe2\x93\x8f |
| U+24Dx | \xe2\x93\x90 | \xe2\x93\x91 | \xe2\x93\x92 | \xe2\x93\x93 | \xe2\x93\x94 | \xe2\x93\x95 | \xe2\x93\x96 | \xe2\x93\x97 | \xe2\x93\x98 | \xe2\x93\x99 | \xe2\x93\x9a | \xe2\x93\x9b | \xe2\x93\x9c | \xe2\x93\x9d | \xe2\x93\x9e | \xe2\x93\x9f |
| U+24Ex | \xe2\x93\xa0 | \xe2\x93\xa1 | \xe2\x93\xa2 | \xe2\x93\xa3 | \xe2\x93\xa4 | \xe2\x93\xa5 | \xe2\x93\xa6 | \xe2\x93\xa7 | \xe2\x93\xa8 | \xe2\x93\xa9 | \xe2\x93\xaa | \xe2\x93\xab | \xe2\x93\xac | \xe2\x93\xad | \xe2\x93\xae | \xe2\x93\xaf |
| U+24Fx | \xe2\x93\xb0 | \xe2\x93\xb1 | \xe2\x93\xb2 | \xe2\x93\xb3 | \xe2\x93\xb4 | \xe2\x93\xb5 | \xe2\x93\xb6 | \xe2\x93\xb7 | \xe2\x93\xb8 | \xe2\x93\xb9 | \xe2\x93\xba | \xe2\x93\xbb | \xe2\x93\xbc | \xe2\x93\xbd | \xe2\x93\xbe | \xe2\x93\xbf |
\n\n,,,,,,,,,,,,,,,,,,
\n
还有一些:
\n\n\n\n\n\xe2\x82\xa7 \xe2\x82\xa8 \xe2\x82\xb6 \xe2\x82\xaf \xe2\x82\xa0 \xe2\x82\xa2 \xe2\x82\xb7
\n
\n\n\xe2\x8e\x82\xe2\x8f\xa8
\n
控制图片(可能您需要缩小才能看到)
\n| U+XXXX | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | 乙 | C | D | 乙 | F |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| U+240x | \xe2\x90\x80 | \xe2\x90\x81 | \xe2\x90\x82 | \xe2\x90\x83 | \xe2\x90\x84 | \xe2\x90\x85 | \xe2\x90\x86 | \xe2\x90\x87 | \xe2\x90\x88 | \xe2\x90\x89 | \xe2\x90\x8a | \xe2\x90\x8b | \xe2\x90\x8c | \xe2\x90\x8d | \xe2\x90\x8e | \xe2\x90\x8f |
| U+241x | \xe2\x90\x90 | \xe2\x90\x91 | \xe2\x90\x92 | \xe2\x90\x93 | \xe2\x90\x94 | \xe2\x90\x95 | \xe2\x90\x96 | \xe2\x90\x97 | \xe2\x90\x98 | \xe2\x90\x99 | \xe2\x90\x9a | \xe2\x90\x9b | \xe2\x90\x9c | \xe2\x90\x9d | \xe2\x90\x9e | \xe2\x90\x9f |
| U+242x | \xe2\x90\xa0 | \xe2\x90\xa1 | \xe2\x90\xa2 | \xe2\x90\xa3 | \xe2\x90\xa4 | \xe2\x90\xa5 | \xe2\x90\xa6 |
\n\n\n\n
\n\n\n
还有表情符号 \xe2\x84\xa2
\n竖线可以被认为是大写 i 或小写 L (就像你的 \xe3\x80\xb7 示例,它实际上是TELEGRAPH LINE FEED SEPARATOR SYMBOL),我们有
\n这是查找多字符字母的自动脚本
\nimport unicodedata\n\nfor c in range(0, 0x10FFFF + 1):\n d = unicodedata.normalize(\'NFKD\', chr(c))\n if len(d) > 1 and d.isascii() and d.isalpha():\n print("U+%04X (%s): %s\\n" % (c, chr(c), d))\nRun Code Online (Sandbox Code Playgroud)\n它无法找到许多连字,例如 \xc3\xa6 或 \xc5\x93,因为它们不被视为正交连字,并且在 Unicode 中不可分解。这是 Unicode 11.0.0 的结果(使用unicodedata.unidata_version检查)
\nU+0132 (\xc4\xb2): IJ\nU+0133 (\xc4\xb3): ij\nU+01C7 (\xc7\x87): LJ\nU+01C8 (\xc7\x88): Lj\nU+01C9 (\xc7\x89): lj\nU+01CA (\xc7\x8a): NJ\nU+01CB (\xc7\x8b): Nj\nU+01CC (\xc7\x8c): nj\nU+01F1 (\xc7\xb1): DZ\nU+01F2 (\xc7\xb2): Dz\nU+01F3 (\xc7\xb3): dz\nU+20A8 (\xe2\x82\xa8): Rs\nU+2116 (\xe2\x84\x96): No\nU+2120 (\xe2\x84\xa0): SM\nU+2121 (\xe2\x84\xa1): TEL\nU+2122 (\xe2\x84\xa2): TM\nU+213B (\xe2\x84\xbb): FAX\nU+2161 (\xe2\x85\xa1): II\nU+2162 (\xe2\x85\xa2): III\nU+2163 (\xe2\x85\xa3): IV\nU+2165 (\xe2\x85\xa5): VI\nU+2166 (\xe2\x85\xa6): VII\nU+2167 (\xe2\x85\xa7): VIII\nU+2168 (\xe2\x85\xa8): IX\nU+216A (\xe2\x85\xaa): XI\nU+216B (\xe2\x85\xab): XII\nU+2171 (\xe2\x85\xb1): ii\nU+2172 (\xe2\x85\xb2): iii\nU+2173 (\xe2\x85\xb3): iv\nU+2175 (\xe2\x85\xb5): vi\nU+2176 (\xe2\x85\xb6): vii\nU+2177 (\xe2\x85\xb7): viii\nU+2178 (\xe2\x85\xb8): ix\nU+217A (\xe2\x85\xba): xi\nU+217B (\xe2\x85\xbb): xii\nU+3250 (\xe3\x89\x90): PTE\nU+32CC (\xe3\x8b\x8c): Hg\nU+32CD (\xe3\x8b\x8d): erg\nU+32CE (\xe3\x8b\x8e): eV\nU+32CF (\xe3\x8b\x8f): LTD\nU+3371 (\xe3\x8d\xb1): hPa\nU+3372 (\xe3\x8d\xb2): da\nU+3373 (\xe3\x8d\xb3): AU\nU+3374 (\xe3\x8d\xb4): bar\nU+3375 (\xe3\x8d\xb5): oV\nU+3376 (\xe3\x8d\xb6): pc\nU+3377 (\xe3\x8d\xb7): dm\nU+337A (\xe3\x8d\xba): IU\nU+3380 (\xe3\x8e\x80): pA\nU+3381 (\xe3\x8e\x81): nA\nU+3383 (\xe3\x8e\x83): mA\nU+3384 (\xe3\x8e\x84): kA\nU+3385 (\xe3\x8e\x85): KB\nU+3386 (\xe3\x8e\x86): MB\nU+3387 (\xe3\x8e\x87): GB\nU+3388 (\xe3\x8e\x88): cal\nU+3389 (\xe3\x8e\x89): kcal\nU+338A (\xe3\x8e\x8a): pF\nU+338B (\xe3\x8e\x8b): nF\nU+338E (\xe3\x8e\x8e): mg\nU+338F (\xe3\x8e\x8f): kg\nU+3390 (\xe3\x8e\x90): Hz\nU+3391 (\xe3\x8e\x91): kHz\nU+3392 (\xe3\x8e\x92): MHz\nU+3393 (\xe3\x8e\x93): GHz\nU+3394 (\xe3\x8e\x94): THz\nU+3396 (\xe3\x8e\x96): ml\nU+3397 (\xe3\x8e\x97): dl\nU+3398 (\xe3\x8e\x98): kl\nU+3399 (\xe3\x8e\x99): fm\nU+339A (\xe3\x8e\x9a): nm\nU+339C (\xe3\x8e\x9c): mm\nU+339D (\xe3\x8e\x9d): cm\nU+339E (\xe3\x8e\x9e): km\nU+33A9 (\xe3\x8e\xa9): Pa\nU+33AA (\xe3\x8e\xaa): kPa\nU+33AB (\xe3\x8e\xab): MPa\nU+33AC
| 归档时间: |
|
| 查看次数: |
6699 次 |
| 最近记录: |