这被称为词形还原,你称之为"词的基础"被称为引理.morpha它在斯坦福POS标签中的重新实现就是这样做的.然而,两者都需要POS标记输入来解决自然语言中固有的歧义.
(POS标记意味着确定单词类别,例如名词,动词.我一直假设你想要一个处理英语的工具.)
编辑:因为您将使用此搜索,这里有一些提示:
(前面的评论是基于我自己的研究;我在硕士论文中写了关于非常嘈杂的数据的搜索引擎中的词形还原.)
| 归档时间: |
|
| 查看次数: |
2918 次 |
| 最近记录: |