标记化和模式匹配如何在中文中起作用.

xyz*_*xyz 10 java locale utf-8 internationalization cjk

这个问题涉及计算和中文知识.我有中文查询,我有一个单独的中文短语列表我需要能够找到这些查询中的哪些有任何这些短语.

在英语中,这是一项非常简单的任务.我根本不懂中文,它的语义,语法规则等等.如果这个论坛中有人也懂中文,可以帮助我一些基本的理解,以及如何为中文做出模式匹配.

我有一个基本的看法,在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?).那么,是否存在关于多个单词如何在它们之间组合以作为一个单元脱颖而出的规则.这是令人困惑的,因为中文写作中有空格,即使没有空格的单元也有多个单词.

从计算的角度来看解释中文的任何链接,模式匹配等都是非常有用的.

Nul*_*ion 10

我有一个基本的看法,在中文中一个单元(中间没有任何空格)实际上可能意味着不止一个单词(这是正确的吗?).

在中国空间很少使用,例如:

递归(英语:Recursion),又译为递回,在数学与计算机科学中,是指在函数的定义中使用函数自身的方法.递归一词还较常用于描述以自相似方法重复事物的过程.例如,当两面镜子相互之间近似平行时,镜中嵌套的图像是以无限递归的形式出现的.

你会注意到看起来像空格实际上只是中文标点字符,它只是比平时更多的填充.

那么,是否存在关于多个单词如何在它们之间组合以作为一个单元脱颖而出的规则.这是令人困惑的,因为中文写作中有空格,即使没有空格的单元也有多个单词.

可以这样想:一个汉字非常非常类似于一个英文单词.通常需要将两个或更多个字符组合以形成一个单词,并且每个单独的字符可能意味着根据上下文完全不同的东西.

为了有意义地对中文文本进行标记,你必须将考虑到这一点的单词分段.

请参阅斯坦福大学NLP小组的中文自然语言处理和语音处理.