我不知道StackOverflow是否涵盖了NLP,所以我要试一试.我有兴趣找到来自特定领域的两个单词的语义相关性,即"图像质量"和"噪声".我正在做一些研究,以确定相机的特定属性的相机评论是正面还是负面.(就像每个评论中的图像质量一样).
然而,并非所有人都在帖子中使用完全相同的措辞"图像质量",所以我出去看看是否有办法让我构建这样的东西:
"图像质量",包括("噪音","颜色","清晰度"等),所以我可以把所有的东西都包在一把大伞里.
我这样做是为了另一种语言,所以Wordnet不一定有用.不,我不为谷歌或微软工作,所以我没有人们点击行为的数据作为输入数据.
但是,我确实有很多文字,pos-tagged,segmented等.
我有兴趣在距离测量为Leveshtein的单词列表上执行kmeans聚类.
1)我知道有很多框架,包括具有kmeans实现的scipy和orange.然而,它们都需要某种矢量作为不适合我的数据.
2)我需要一个很好的集群实现.我查看了python-clustering并意识到它不会a)返回每个质心的所有距离的总和,并且b)它没有任何类型的迭代限制或切断,这确保了聚类的质量.python-clustering和daniweb上的聚类算法并不适用于我.
有人能找到我的好lib吗?谷歌不是我的朋友