Sté*_*e C 9 python nlp r nltk wordnet
上下文是:我已经有了一些单词(实际上是短语),这些单词是由应用于互联网搜索查询的kmeans产生的,并且在搜索引擎的结果中使用常见的URL作为距离(如果我简化很多,则会同时显示网址而不是单词) ).
我想使用语义自动标记聚类,换句话说,我想提取围绕一起考虑的一组短语的主要概念.
例如 - 抱歉我的例子 - 如果我有以下一堆问题:['我丈夫袭击了我','他被警察逮捕','审判仍在继续','我的丈夫可以因为骚扰我而入狱?','自由律师']我的研究涉及家庭暴力,但显然这个集群专注于问题的法律方面,所以标签可能是"合法的".
我是NPL的新手,但我必须确切地说我不想使用POS标记提取单词(或者至少这不是预期的最终结果,但可能是必要的初步步骤).
我读到Wordnet的感觉消除歧义,我认为这可能是一个很好的轨道,但我不想计算两个查询之间的相似性(因为集群是输入),也不需要获得一个选定单词的定义,这要归功于提供的上下文通过一大堆词(在这种情况下选择哪个词?).我想使用整个单词来提供上下文(可能使用synset或使用wordnet的xml结构进行分类),然后用一个或几个单词汇总上下文.
有任何想法吗 ?我可以使用R或python,我读了一些关于nltk但我找不到在我的上下文中使用它的方法.
您最好的选择可能是手动标记集群,尤其是在集群数量很少的情况下。即使对于人类来说,这也是一个很难解决的问题,因为您可能需要领域专家。任何声称他们可以自动且可靠地做到这一点(除了某些非常有限的领域)的人可能正在经营一家初创公司并试图获得您的业务。
此外,亲自检查集群也会有好处。1)您可能会发现簇数(k 参数)错误,或者输入中一开始就有太多垃圾。2)您将定性地了解正在讨论的内容以及数据中的主题(在查看数据之前您可能无法知道)。因此,如果您想要的是定性洞察,请手动标记。如果您也需要定量结果,则可以在手动标记的主题上训练分类器,以 1) 预测其余集群的主题,或 2) 供将来使用,如果您重复集群,获取新数据,...
归档时间: |
|
查看次数: |
2370 次 |
最近记录: |