我使用 Gensim 在语料库上训练了 LDA 模型。现在我已经有了每个文档的主题分布,如何比较两个文档的主题相似程度?我想要一个总结性的衡量标准。例如,以下是两个文档的主题分布。共有75个主题。为简洁起见,我仅显示概率最大的前 10 个主题(因此主题不按顺序排列)。(40, 0.5523168) 表示主题 #40 对于 DOC #1 的概率为 0.5523168。我应该计算两个向量之间的欧几里德距离或余弦距离吗?使用此汇总度量,我是否可以说,例如,DOC 1 与 DOC2 比 DOC3 更相似,或者 DOC1 和 DOC 2 在主题上比 DOC 3 和 DOC 4 更相似?谢谢你!
DOC #1:
[(40, 0.5523168), (60, 0.12225048), (43, 0.07556598), (41, 0.065885976),
(22, 0.05838573), (24, 0.044774733), (74, 0.019839266), (65, 0.019544959),
(51, 0.015470431), (36, 0.013449047)]
DOC #2:
[(73, 0.58864516), (41, 0.16827711), (51, 0.09783472), (63, 0.06510383),
(24, 0.04722658), (32, 0.014467965), (44, 0.012267662), (47, 0.0031533625),
(18, 0.0022214972), (0, 1.2154361e-05)]
Run Code Online (Sandbox Code Playgroud) 我想根据另一列的值更改一列的值。例如,给定以下DF:
Freq TOC
1 10 NA
2 20 NA
3 30 NA
for index, row in df.iterrows():
if row["Freq"] == 20:
row["TOC"] = True
Run Code Online (Sandbox Code Playgroud)
我期望:
Freq TOC
1 10 NA
2 20 True
3 30 NA
Run Code Online (Sandbox Code Playgroud)
但是什么都没有改变。怎么了?谢谢。
我正在尝试用Python复制Perl Fathom.此步骤校正某些单词组合的音节计数.=〜相当于Python中的re.match?re.match只查找第一个实例.谢谢!
@SubSyl = (
'cial',
'tia',
'cius',
'cious',
'giu',
'ion',
'iou',
'sia$',
'.ely$',
'[^td]ed$',
);
foreach (@SubSyl) {
$syl-- if $word =~ /$_/;
}
Run Code Online (Sandbox Code Playgroud)