垂直条(|)Unicode替换

Zig*_*giZ 4 xml csv unicode separator

我们在其中一个模块中使用竖线bar |(|)字符作为字段分隔符.因此用户不应在标题中使用此字符.

如果他们确实使用它,我想用类似的角色替换它.

是否有Unicode替代品?我找到的唯一一个与它相似的角色是垂直条¦(¦).

tch*_*ist 26

我不明白你真正需要什么.您是否需要将分隔符序列更改为保证数据集中不存在的内容?

如果是这样,那就是Unicode的66个"非字符"代码点是专门设计的.您可以将它们用作内部哨兵,因为它们知道它们不会出现在有效数据中.

如果你只是寻找一个视觉外观,那就非常不同了.我不建议这样做,因为有很多混淆因素.以下是其中一些:

U+0007C ? |  GC=Sm SC=Common       VERTICAL LINE
U+000A6 ? ¦  GC=So SC=Common       BROKEN BAR
U+002C8 ? ?  GC=Lm SC=Common       MODIFIER LETTER VERTICAL LINE
U+002CC ? ?  GC=Lm SC=Common       MODIFIER LETTER LOW VERTICAL LINE
U+02016 ? ?  GC=Po SC=Common       DOUBLE VERTICAL LINE
U+023D0 ? ?  GC=So SC=Common       VERTICAL LINE EXTENSION
U+02758 ? ?  GC=So SC=Common       LIGHT VERTICAL BAR
U+02759 ? ?  GC=So SC=Common       MEDIUM VERTICAL BAR
U+0275A ? ?  GC=So SC=Common       HEAVY VERTICAL BAR
U+02AF4 ? ?  GC=Sm SC=Common       TRIPLE VERTICAL BAR BINARY RELATION
U+02AF5 ? ?  GC=Sm SC=Common       TRIPLE VERTICAL BAR WITH HORIZONTAL STROKE
U+02AFC ? ?  GC=Sm SC=Common       LARGE TRIPLE VERTICAL BAR OPERATOR
U+02AFE ? ?  GC=Sm SC=Common       WHITE VERTICAL BAR
U+02AFF ? ?  GC=Sm SC=Common       N-ARY WHITE VERTICAL BAR
U+0FF5C ? ? GC=Sm SC=Common       FULLWIDTH VERTICAL LINE
U+0FFE4 ? ? GC=So SC=Common       FULLWIDTH BROKEN BAR
Run Code Online (Sandbox Code Playgroud)

  • @ZigiZ 66个非字符代码点是"U + FDD0和U + FDEF之间的32,以及34个代码点U + FFFE,U + FFFF,U + 1FFFE,U + 1FFFF,... U + 10FFFE, U + 10FFFF.有些人误以为这些是"非法的",但事实并非如此.申请或合作的一套申请可以在内部合法地使用它们; 但这些代码点"对于开放式交换是非法的"." (2认同)

use*_*893 5

Unicode 中有一个“浅色竖条”:?, 代码点 U+2758

  • 我的朋友,这就是我们使用转义字符的原因。 (6认同)