用于在Unicode字符串中搜索单词边界的Javascript正则表达式

And*_*rei 4 javascript regex unicode word-boundary xregexp

是否有解决方案在日语字符串中找到单词边界(例如:"私はマーケットに行きました.")通过JavaScript正则表达式("xregexp"JS库cab使用)?

例如:

var xr = RegExp("\\bst","g");
xr.test("The string") // --> true
Run Code Online (Sandbox Code Playgroud)

我需要日语字符串的相同逻辑.

Pet*_* O. 6

然而,将日语句子分成单词的实际问题比看起来更复杂,因为单词不像例如英语那样被分成空格.

例如,句子私はマーケットに行きました.("我去市场")有以下几个字:

  • 私 - watakushi
  • は - wa
  • マーケット - maaketto
  • に - ni
  • 行きました - ikimashita
  • . - (期间)

除了其他方面之外,日语句子的可靠解析器必须找到粒子(wa和ni)在句子中的位置,以便找到剩余的单词.

  • 是的,这真的很难; 你必须有大词典和启发法来猜测当使用一系列字符(特别是假名)时,更有可能出现什么词.你可以通过不止一种方式阅读句子来制作双关语,因此最终任务不是完全可以解决的,并且你可以使用像正则表达式那样生硬的工具(从不介意JavaScript的Unicode无知正则表达式). (3认同)