使用Dataframe的行之间的火花余弦距离

Question

使用Dataframe的行之间的火花余弦距离

Iva*_*nik 6 cosine-similarity apache-spark pyspark spark-dataframe

我必须计算每行之间的余弦距离，但我不知道如何优雅地使用 Spark API Dataframes 来完成它。这个想法是计算每一行（项目）的相似度，并通过比较它们在行之间的相似度来获取前 10 个相似度。--> 这是 Item-Item Recommender System 所需要的。

我所读到的所有内容都涉及计算列上的相似性Apache Spark Python Cosine Similarity over DataFrames 也许有人会说是否可以使用 PySpark Dataframe 的 API 或 RDD 优雅地计算行之间的余弦距离，或者我必须手动完成？

这只是一些代码来显示我打算做什么

def cosineSimilarity(vec1, vec2):
    return vec1.dot(vec2) / (LA.norm(vec1) * LA.norm(vec2))


#p.s model is ALS
Pred_Factors = model.itemFactors.cache() #Pred_Factors = DataFrame[id: int, features: array<float>]

sims = []

for _id,_feature in Pred_Factors.toLocalIterator():
    for id, feature in Pred_Factors.toLocalIterator():

        itemFactor = _feature

        sims = sims.append(_id, cosineSimilarity(asarray(feature),itemFactor))

sims = sc.parallelize(l)
sortedSims = sims.takeOrdered(10, key=lambda x: -x[1])

Run Code Online (Sandbox Code Playgroud)

提前感谢所有帮助

Answer 1

ash*_*ids 5

您可以使用mllib.feature.IndexedRowMatrix的columnSimilarities功能。它使用余弦度量作为距离函数。它计算列之间的相似性，因此，在应用此函数之前必须进行转置。

pred_ = IndexedRowMatrix(Pred_Factors.rdd.map(lambda x: IndexedRow(x[0],x[1]))).toBlockMatrix().transpose().toIndexedRowMatrix()
pred_sims = pred.columnSimilarities()

Run Code Online (Sandbox Code Playgroud)

您必须将数据帧转换为 rdd 才能应用此方法。 (2认同)

归档时间：	8 年，3 月前
查看次数：	3191 次
最近记录：	7 年，6 月前