相关疑难解决方法(0)

如何计算两个向量的余弦相似度?

如何找到矢量之间的余弦相似度?

我需要找到相似度来衡量两行文本之间的相关性.

例如,我有两个句子,如:

用户界面系统

用户界面机器

...和tF-idf之后的各自向量,然后使用LSI进行归一化,例如 [1,0.5][0.5,1].

如何衡量这些向量之间的熟悉程度?

java trigonometry vector tf-idf

31
推荐指数
4
解决办法
6万
查看次数

文本相似度算法

我正在做一个Java项目,我必须制作文本相似性程序.我希望它能够获取2个文本文档,然后将它们相互比较并获得它的相似性.他们彼此有多相似.

我稍后会放置一个已经可以找到单词同义词的数据库,并通过文本查看其中一个文本文档编写者是否只是将文本更改为其他同义词,而文本完全相同.向上或向下移动paragrafs也是如此.是的,正如它是一个加勒比计划......

我想告诉大家你会推荐什么样的算法.

通过查看这里和其他地方,我发现了Levenstein和Cosine的相似性.他们似乎都被提到了很多.海明距离是我老师告诉我的另一个.

我得到了一些与那些相关的问题,因为我并没有真正得到维基百科.有人可以向我解释这些事吗?

Levenstein:这个算法由sub改变,添加和删除单词,看看它与文本文档中的另一个单词有多接近.但是如何在整个文本文件中使用它?我可以看到如何在一个单词上使用它,但不能在一个句子或整个文本文档中使用它.

余弦:它是通过测量两个矢量之间角度的余弦来衡量两个矢量之间的相似性.这里我不明白两个文本如何成为2个向量,那些文字/句子怎么样?

汉明:这个距离似乎比Levenstein更好,但它只是在相同的弦上.当2个文件甚至其中的句子不是两个相等长度的字符串时,怎么这么重要?

维基百科应该有意义,但事实并非如此.我很抱歉,如果这些问题听起来太愚蠢了,但它让我失望了,我认为这里的人们很容易解释它,所以即使是这个领域的新手也可以得到它.

谢谢你的时间.

java algorithm text similarity

18
推荐指数
1
解决办法
1万
查看次数

如何计算Facebook中两个用户的相似度?

我正在开展一个关于数据挖掘的项目.我的公司给了我600万个Facebook的虚拟客户信息.我被分配找出任何两个用户之间的相似性.任何人都可以给我一些如何处理大型社区数据的想法吗?提前致谢 :)

问题:我使用状态信息和主题标签信息(主题标签是用户突出显示的那些词)作为衡量两个不同用户之间相似性的两个标准.由于用户数量众多,特别是每个用户可能有数百万个主题标签和状态.谁能告诉我一个快速计算两个用户之间相似性的好方法?我曾尝试使用TF-IDF计算两个不同用户之间的相似性,但似乎不可行.任何人都可以有一个非常超级的算法或好的想法,可以让我快速找到用户之间的所有相似之处?

例如:

user A's hashtag = `{cat, bull, cow, chicken, duck}`
user B's hashtag =`{cat, chicken, cloth}` 
user C's hashtag = `{lenovo, Hp, Sony}`
Run Code Online (Sandbox Code Playgroud)

显然,C与A无关,因此没有必要计算与浪费时间的相似性,我们可以在计算相似度之前先滤除所有那些不相关的用户.实际上,超过90%的总用户与特定用户无关.如何使用hashtag作为标准来快速找到那些潜在的类似用户组A?这是一个好主意吗?或者我们直接计算A和所有其他用户之间的相对相似度?什么算法是问题的最快和定制算法?

algorithm similarity

4
推荐指数
1
解决办法
2847
查看次数

标签 统计

algorithm ×2

java ×2

similarity ×2

text ×1

tf-idf ×1

trigonometry ×1

vector ×1