NLP:找到单词之间语义相似性的任何简单方法?

sad*_*awd 21 nlp

我不知道StackOverflow是否涵盖了NLP,所以我要试一试.我有兴趣找到来自特定领域的两个单词的语义相关性,即"图像质量"和"噪声".我正在做一些研究,以确定相机的特定属性的相机评论是正面还是负面.(就像每个评论中的图像质量一样).

然而,并非所有人都在帖子中使用完全相同的措辞"图像质量",所以我出去看看是否有办法让我构建这样的东西:

"图像质量",包括("噪音","颜色","清晰度"等),所以我可以把所有的东西都包在一把大伞里.

我这样做是为了另一种语言,所以Wordnet不一定有用.不,我不为谷歌或微软工作,所以我没有人们点击行为的数据作为输入数据.

但是,我确实有很多文字,pos-tagged,segmented等.

Swe*_*lap 5

查看谷歌相似距离 - http://arxiv.org/abs/cs.CL/0412098 例如.如果很多网页都包含它们,那么它们可能是相关的.

演示程序在http://mechanicalcinderella.com

除此之外,你可以尝试翻译像wordnet这样的项目(谷歌翻译可以帮助),或者开始一个协作本体.


小智 5

为了找到单词之间的语义相似性,单词空间模型应该可以解决问题。这样的模型可以非常容易且相当有效地实施。最有可能的是,您将希望实现某种降维。我能想到的最简单的方法是随机索引,该索引已在NLP中广泛使用。

一旦有了词空间模型,就可以计算词之间的距离(例如,余弦距离)。在这样的模型中,您应该获得前面提到的结果(“焦点”和“细节”之间的距离应大于“相机重量”与“闪光灯”之间的距离)。

希望这可以帮助!

  • 现在两个链接都坏了 (2认同)

Vla*_*lad 2

看一下潜在语义索引http://en.wikipedia.org/wiki/Latent_semantic_indexing它专门解决了您的问题。然而,您需要想出某种方法将这些元概念与积极或消极的情绪相关联。情绪分析http://en.wikipedia.org/wiki/Sentiment_analysis应该对您有帮助。