我正在解析句子.我想知道每个句子的相关内容,松散地定义为与语料库其余部分相关的"半独特词语".与亚马逊的"统计上不太可能的短语"类似的东西,似乎(经常)通过古怪的词串传达一本书的特征.
我的第一步是开始制作一个常用的单词列表.这击倒简单的像a,the,from,等.显然,事实证明,这个名单变得很长.
一个想法是生成这个列表:制作语料库的单词频率的直方图,并删除前10%或类似的东西(IE the发生700次,from600次,但micropayments只有50次,这是截止的,因此相关) .
我刚从Hacker News了解到的另一个算法是Tf idf,看起来它可能会有所帮助.
还有哪些方法比我的两个想法更好?