Kar*_*ton 11 javascript algorithm text similarity
我正在建立一个网站,应该收集各种新闻源,并希望对文本进行相似性比较.我需要的是某种新闻文本相似度算法.我知道php具有similar_text函数,我不确定它有多好+我需要它用于javascript.因此,如果有人可以指出我的示例或插件或任何关于如何可能的指令或至少在哪里查看并开始调查.
Fle*_*exo 12
有一个Levenshtein距离度量的javascript实现,通常用于文本比较.如果你想比较整篇文章或标题,你可能最好看一下组成文本的单词组(和那些单词的频率)之间的交叉点,而不仅仅是字符串相似性度量.
phi*_*ous 10
两个文本是否相似的问题是一个哲学问题,只要你没有具体说明它应该是什么意思.考虑字符串"房子"和"鼠标".从语义层面,他们都不是很相似见过,但他们是对他们的"外貌"非常相似,因为只有一个字母是不同的(在这种情况下,你可以通过去Levenshtein距离).
要确定相似性,您需要一个适当的文本表示.例如,您可以提取并计算所有n-gram,并使用相似性度量比较两个得到的频率向量,例如余弦相似度.或者你可以干已经删除了所有之后的话他们的根形式停用词,总结它们的出现和使用这个作为输入的相似性度量.
有关于这个话题很多方法和论文,如这一个约短文.在任何情况下:你想要决定两个文本是否相似的抽象级别越高,它就会越难.我认为你的问题是一个非平凡的问题(因此我的答案相当抽象)...... ;-)