为什么每种语言都需要一个tokenizer?

Jac*_*ain 11 lucene text nlp semantics

在处理文本时,为什么需要专门用于该语言的标记化器?

不会用空格标记就足够了吗?使用简单的空格标记化不是一个好主意的情况是什么?

alv*_*vas 18

标记化是从表面文本中识别语言有意义的单元(LMU).

中文:如果您在新加坡只能前往一间夜间娱乐场所,Zouk必然是您的不二之选.

中文:如果你只有时间在新加坡的一个俱乐部,那么它只需要是Zouk.

印度尼西亚语:Jika Anda hanya memiliki waktu untuk satu klub di Singapura,pergilah ke Zouk.

日语:シンガポールで一つしかクラブに行く时间がなかったとしたら,このズークに行くべきです.

韩语:싱가포르에서클럽한군데밖에갈시간이없다면,Zouk를선택하세요.

越南语:Nếubạnchỉcóthờigianghéthămmộtcúumạcbộộ新加坡thìhãyđếnZouk.

文字来源:http://aclweb.org/anthology/Y/Y11/Y11-1038.pdf

上面的并行文本的标记化版本应如下所示:

在此输入图像描述

对于英语,它很简单,因为每个LMU 都由空格分隔/分隔.但是在其他语言中,情况可能并非如此.对于大多数罗马化语言,例如印度尼西亚语,它们具有相同的空白分隔符,可以轻松识别LMU.

但是,有时LMU是由空格分隔的两个"单词"的组合.例如,在上面的越南语句子中,您必须阅读th?i_gian(这意味着英语时间)作为一个标记而不是2个标记.将这两个单词分成2个令牌不会产生LMU(例如http://vdict.com/th%E1%BB%9Di,2,0,0.html)或错误的LMU(例如http:// vdict. com/gian,2,0,0.html).因此,正确的越南语标记器将输出th?i_gian为一个标记而不是th?igian.

对于其他一些语言,他们的拼字法可能没有空格来划分"单词"或"标记",例如中文,日文,有时甚至是韩文.在这种情况下,标记化是计算机识别LMU所必需的.通常有一个词素/变形附加到LMU,因此有时a morphological analyzer比自然语言处理中的标记化器更有用.


Ric*_*dle 5

有些语言,如中文,根本不使用空格来分隔单词.

其他语言将使用不同的标点符号 - 例如,撇号可能是也可能不是单词的一部分.

案例折叠规则因语言而异.

语言和词干在语言之间是不同的(虽然我猜我在这里偏离了标记器到分析器).

由Bjerva编辑:此外,许多语言连接复合名词.是否应将其标记为多个令牌不能仅使用空格来轻松确定.


小智 5

这个问题还暗示着“什么是单词?” 并且可以是非常特定于任务的(甚至忽略多语言作为一个参数)。这是我尝试包含的答案:

\n\n

(缺少)单词之间的空格

\n\n
\n

许多语言根本不在单词之间添加空格,因此\n 打破空白的基本分词算法根本没有用处。此类语言包括主要东亚语言/文字,例如中文、日语和泰语。古希腊语也是由古希腊人书写的,没有单词空格。后来的人引入了空格(连同重音符号等)。在此类语言中,分词是一项更加重要且更具挑战性的任务。(曼尼:1999,第 129 页)

\n
\n\n

化合物

\n\n
\n

德语复合名词写成单个单词,例如\n“Kartellaufsichtsbeh\xc3\xb6rdenangestellter”(“反信任机构”的一名雇员),而复合名词事实上是单个单词——从语音上看(参见(MANNI) :1999, p. 120)).\n 然而,它们的信息密度很高,人们可能希望\n 划分这样一个复合词,或者至少了解该词的内部\n 结构,并且这成为一个有限的分词任务。(同上)

\n
\n\n

还有粘着语言的特殊情况;介词、物主代词……“附加”到“主”词上;例如欧洲领域的芬兰语、匈牙利语、土耳其语。

\n\n

变体样式和编码

\n\n

某种语义类型信息的变体编码,例如电话号码、日期等的本地语法:

\n\n
\n

[...]即使不处理多语言文本,任何处理来自不同国家或根据不同文体惯例编写的文本的应用程序都必须准备好处理印刷差异。特别是,某些项目(例如电话号码)显然属于一种语义类别,但可以以多种格式出现。(曼尼:1999,第 130 页)

\n
\n\n

杂项。

\n\n

一项主要任务是消除句号(或一般的标点符号)和其他非字母(数字)符号的歧义:例如,如果句号是单词的一部分,请保持这种状态,这样我们就可以区分 Wash.,Wash. 的缩写华盛顿州,来自动词 Wash 的大写形式(MANNI:1999,第 129 页)。除了这样的情况之外,处理缩写和连字符也不能被视为跨语言标准情况(即使忽略缺少的空白分隔符)。

\n\n

如果一个人想处理多语言缩写/“cliticons”:

\n\n
    \n
  • 中文:他们\xe2\x80\x98是我父亲\xe2\x80\x98的表兄弟。
  • \n
  • 法语:Montrez-le \xc3\xa0 l\xe2\x80\x98agent!
  • \n
  • 德语:Ich hab\xe2\x80\x98s ins Haus gebracht。(in\xe2\x80\x98s 仍然是有效的变体)
  • \n
\n\n

由于标记化和句子分割齐头并进,因此它们具有相同的(跨语言)问题。可能涉及/想要总体方向的人:

\n\n
    \n
  • 基斯、蒂博尔和简·斯特伦克。2006.无监督多语言句子边界检测。计算语言学32(4),p。485-525。
  • \n
  • 帕尔默,D. 和 M. 赫斯特。1997. 自适应多语言句子边界消歧。计算语言学,23(2),p。241-267。
  • \n
  • Reynar, J. 和 A. Ratnaparkhi。1997. 识别句子边界的最大熵方法。第五届应用自然语言处理会议论文集,p。16-19。
  • \n
\n\n

参考

\n\n

(曼尼:1999)曼宁通道。D.,H.Sch\xc3\xbctze。1999。统计自然语言处理基础。马萨诸塞州剑桥:麻省理工学院出版社。

\n