最少使用的 unicode 分隔符

sam*_*xli 4 php unicode parsing nlp unicode-string

我正在尝试在特定位置使用分隔符标记我的文本,稍后将使用该分隔符进行解析。我想使用最不常用的分隔符。我当前正在查看“\2”或 U+0002 字符。使用起来足够安全吗?还有什么其他建议?文本为 unicode,同时包含英语和非英语字符。

A想要使用仍然可以被PHP“exploded()”的字符。

编辑:

另外,我希望能够在屏幕上(浏览器)显示这段文本,并且分隔符对用户来说是“不可见的”。我绝对可以使用 str_replace() 来摆脱可见分隔符,但如果有好的不可见分隔符,则不需要这样的处理。

Joe*_*oey 7

如果这仅用于内部表示(即用于交换和存储),那么您可以使用非字符代码点,例如 U+FFFF。例如,Java 使用它作为 CharacterIterator 完成的信号

  • @samxli,如果你将它存储在MySQL表中,你也可以创建一个单独的表来存储数据。您正在做的事情听起来像是可以改进数据库设计。 (2认同)