Ale*_*Mcp 10 language-agnostic algorithm parsing lexical-analysis
我正在解析句子.我想知道每个句子的相关内容,松散地定义为与语料库其余部分相关的"半独特词语".与亚马逊的"统计上不太可能的短语"类似的东西,似乎(经常)通过古怪的词串传达一本书的特征.
我的第一步是开始制作一个常用的单词列表.这击倒简单的像a,the,from,等.显然,事实证明,这个名单变得很长.
一个想法是生成这个列表:制作语料库的单词频率的直方图,并删除前10%或类似的东西(IE the发生700次,from600次,但micropayments只有50次,这是截止的,因此相关) .
我刚从Hacker News了解到的另一个算法是Tf idf,看起来它可能会有所帮助.
还有哪些方法比我的两个想法更好?
看看这篇文章(单词的级别统计:在文学文本和符号序列中查找关键词,发表于Phys.Rev.E).
第一页上的图片及其标题解释了重要的观察结果.在唐吉诃德,词语"但"和"堂吉诃德"出现具有类似的频率,但它们的光谱是相当不同的("堂吉诃德"的出现而出现的"而是"更均匀地间隔开的聚集).因此,"Quixote"可以被分类为有趣的词(关键词),而"but"被忽略.
它可能是也可能不是您正在寻找的东西,但我想熟悉这个结果并不会有什么坏处.