我怎样才能从语料库中找到"有趣"的单词？

Question

我正在解析句子.我想知道每个句子的相关内容,松散地定义为与语料库其余部分相关的"半独特词语".与亚马逊的"统计上不太可能的短语"类似的东西,似乎(经常)通过古怪的词串传达一本书的特征.

我的第一步是开始制作一个常用的单词列表.这击倒简单的像a,the,from,等.显然,事实证明,这个名单变得很长.

一个想法是生成这个列表:制作语料库的单词频率的直方图,并删除前10%或类似的东西(IE the发生700次,from600次,但micropayments只有50次,这是截止的,因此相关) .

我刚从Hacker News了解到的另一个算法是Tf idf,看起来它可能会有所帮助.

还有哪些方法比我的两个想法更好？

Answer 1

看看这篇文章(单词的级别统计:在文学文本和符号序列中查找关键词,发表于Phys.Rev.E).

第一页上的图片及其标题解释了重要的观察结果.在唐吉诃德,词语"但"和"堂吉诃德"出现具有类似的频率,但它们的光谱是相当不同的("堂吉诃德"的出现而出现的"而是"更均匀地间隔开的聚集).因此,"Quixote"可以被分类为有趣的词(关键词),而"but"被忽略.

它可能是也可能不是您正在寻找的东西,但我想熟悉这个结果并不会有什么坏处.

在达尔文的书上工作得相当好,但是对于乔伊斯的尤利西斯,它产生了一些不那么有用的结果:我说,你说,你,她,她,开花,先生,项目,我......是前十个单词.如果你延伸到下一个四十岁,你会得到:mulligan,是,joe,buck,他,是,它,其中,公民,eglinton,douce,my,like,j,cissy,o,we,tap,omolloy,deasy那个,也有,alf,conmee,gutenberg,haines,myles,martin,kennedy,out,his,your,they,ned,gerty,hes,lenehan,edy ......顺便说一下,我意识到我没有'剥离Project Gutenberg足迹就足够了! (3认同)