Dav*_*ave 4 import search synonym
我们有一个客户正在寻找一种方法来导入和分类大量的文本数据.这些数据必须进行分类,并且有人建议最简单的方法是查看说明字段并尝试匹配那里的单词以查看是否可以为该特定记录派生类别.
人们认为最好的方法是将单词与每个类别的关键词匹配,如果不成功则使用某种同义词查看是否可以使用.因此,例如,如果特定记录中有"汽车"一词,则同义词查找可以将该词与"汽车"相匹配,该词将与"车辆"类别相对应.
有没有人知道一个Web服务或其他查找字典的方法来查找特定单词的同义词?项目经理已经建议为此购买Google Enterprise Search许可证,但是从我能够做到的不能提供这些人正在寻找的东西.
任何其他建议让客户得到他们正在寻找的东西都会感激不尽.
谢谢!我会看看Wordnet.
您知道其他任何类型的文本分类软件产品吗?我看到有一些关于使用Bayasian算法的讨论,但是我看不到任何真实世界的例子.
首先想到的是Wordnet.Wordnet是人类生成的单词和相关单词数据库,包括同义词.Wikipedia Wordnet条目列出了Wordnet的几个接口.我相信其中一些是Web服务.你也可以自己动手.Manning和Schutze的第5章(免费PDF)显示了这样做的方法.
话虽如此,你解决了正确的问题吗?你如何建立类别列表?它是一个层次结构吗?标签云?参见Clay Shirky的Ontology被高估了对等级类别的批评.我认为,如果你的分类基于单词集(例如Naive Bayes)而不是单个单词,那么同义词就不那么重要了.
归档时间: |
|
查看次数: |
3225 次 |
最近记录: |