首先,词干是指将词语简化为词干的过程.但是,这可能意味着许多不同的事情.大多数语言学家至少区分两种方法:
删除语法,但不是派生词素.语法词素是单词的组成部分,与其在特定句子中的语法角色相关,例如数字,案例,性别,时态,方面等.
删除这两个语法和派生语素.派生词素是与其从另一个词派生相关的单词的组成部分,例如"工人"中的"-er"与从"工作"派生(或可以被视为派生)的方式有关.
因此,depluralization,这是一个相当不寻常的术语,但显然是指删除多个语素(如"计算机"末尾的"-s"),是一种词干的一部分,特别是删除的一部分语法(但不是派生)语素.
在英语中,名词的形态在很大程度上局限于复数("计算机")和属格(第二种情况,"计算机"),因此就英语而言,depluralization可能被视为(几乎)与(语法)词干的同义词至少在词干应用于名词的程度上,以及在某种程度上,形容词,(例如在信息检索的背景下).然而,无论在何处考虑动词,过去时态,被动语态和其他屈折形式都会受到干扰(但不是去污化).
此外,在英语以外的语言中,甚至名词也可能具有非常丰富的形态,包括诸如案例,礼貌等级或特殊种类的复数(例如双重)之类的词素.然后,depluralization(如果你想使用该术语)将只涉及整个词干过程的一小部分.
另一个相关术语是词形还原,它通常与词干同义.我发现许多人(包括我自己)要做的两个区别是:
词干术语用于指基于规则或基于机器学习的技术,该技术删除看起来像语法词素的单词(主要是结尾)的部分
词形还原术用于指代同样的流程,但使用语言的实际词典来处理高度不规则的形式(例如复数"女性")
(但是,并非所有人都同意这种区别.)
| 归档时间: | 
 | 
| 查看次数: | 1182 次 | 
| 最近记录: |