我有一个如下数据框:框架的形状是(1510,1399).列表示产品,行表示用户为给定产品分配的值(0或1).我怎样才能计算jaccard_similarity_score?
我创建了一个列出产品与产品的占位符数据框
data_ibs = pd.DataFrame(index=data_g.columns,columns=data_g.columns)
Run Code Online (Sandbox Code Playgroud)
我不知道如何迭代data_ibs来计算相似之处.
for i in range(0,len(data_ibs.columns)) :
# Loop through the columns for each column
for j in range(0,len(data_ibs.columns)) :
.........
Run Code Online (Sandbox Code Playgroud) 我有一个pandas数据帧如下:
如何将所有列表(在'val'列中)组合成一个唯一的列表(set),例如[val1, val2, val33, val9, val6, val7]
?
我可以使用以下代码解决这个问题.我想知道是否有更简单的方法从列中获取所有唯一值而不迭代数据帧行?
def_contributors=[]
for index, row in df.iterrows():
contri = ast.literal_eval(row['val'])
def_contributors.extend(contri)
def_contributors = list(set(def_contributors))
Run Code Online (Sandbox Code Playgroud) 我有一个项目-项目矩阵 (1877 x 1877)。矩阵中的值表示两个项目同时出现的次数。如何确定两个项目之间的相似性?通过阅读,我发现很少有选择。但是我不确定这些方法。任何有关入门的意见都将受到赞赏。
我根据术语计算了文档的 tf-idf。然后,我应用 LSA 来降低术语的维数。'similarity_dist' 包含负值(见下表)。如何计算范围 0-1 的余弦距离?
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, tokenizer=tokenize_and_stem, stop_words='english')
%time tf = tf_vectorizer.fit_transform(descriptions)
print(tf.shape)
svd = TruncatedSVD(100)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd, normalizer)
tfidf_desc = lsa.fit_transform(tfidf_matrix_desc)
explained_variance = svd.explained_variance_ratio_.sum()
print("Explained variance of the SVD step: {}%".format(int(explained_variance * 100)))
similarity_dist = cosine_similarity(tfidf_desc)
pd.DataFrame(similarity_dist,index=descriptions.index, columns=descriptions.index).head(10)
print(tfidf_matrix_desc.min(),tfidf_matrix_desc.max())
#0.0 0.736443429828
print(tfidf_desc.min(),tfidf_desc.max())
#-0.518015429416 0.988306783341
print(similarity_dist.max(),similarity_dist.min())
#1.0 -0.272010919022
Run Code Online (Sandbox Code Playgroud)
python ×4
matrix ×2
pandas ×2
list ×1
lsa ×1
merge ×1
scikit-learn ×1
similarity ×1
svd ×1
unique ×1