小编Vic*_*ang的帖子

如何在Python Gensim中从主题分布比较两个文档之间的主题相似度?

我使用 Gensim 在语料库上训练了 LDA 模型。现在我已经有了每个文档的主题分布,如何比较两个文档的主题相似程度?我想要一个总结性的衡量标准。例如,以下是两个文档的主题分布。共有75个主题。为简洁起见,我仅显示概率最大的前 10 个主题(因此主题不按顺序排列)。(40, 0.5523168) 表示主题 #40 对于 DOC #1 的概率为 0.5523168。我应该计算两个向量之间的欧几里德距离或余弦距离吗?使用此汇总度量,我是否可以说,例如,DOC 1 与 DOC2 比 DOC3 更相似,或者 DOC1 和 DOC 2 在主题上比 DOC 3 和 DOC 4 更相似?谢谢你!

DOC #1:
[(40, 0.5523168), (60, 0.12225048), (43, 0.07556598), (41, 0.065885976), 
(22, 0.05838573), (24, 0.044774733), (74, 0.019839266), (65, 0.019544959), 
(51, 0.015470431), (36, 0.013449047)]


DOC #2:
[(73, 0.58864516), (41, 0.16827711), (51, 0.09783472), (63, 0.06510383), 
(24, 0.04722658), (32, 0.014467965), (44, 0.012267662), (47, 0.0031533625), 
(18, 0.0022214972), (0, 1.2154361e-05)]
Run Code Online (Sandbox Code Playgroud)

python lda gensim

4
推荐指数
1
解决办法
3834
查看次数

Pandas DataFrame:为什么我不能通过行迭代基于另一列的值来更改一列的值?

我想根据另一列的值更改一列的值。例如,给定以下DF:

   Freq TOC
1    10  NA
2    20  NA
3    30  NA

for index, row in df.iterrows():
    if row["Freq"] == 20:
        row["TOC"] = True
Run Code Online (Sandbox Code Playgroud)

我期望:

   Freq TOC
1    10  NA
2    20  True
3    30  NA
Run Code Online (Sandbox Code Playgroud)

但是什么都没有改变。怎么了?谢谢。

python series pandas

2
推荐指数
2
解决办法
622
查看次数

Perl中的=〜相当于Python中的re.match吗?

我正在尝试用Python复制Perl Fathom.此步骤校正某些单词组合的音节计数.=〜相当于Python中的re.match?re.match只查找第一个实例.谢谢!

 @SubSyl = (
           'cial',
           'tia',
           'cius',
           'cious',
           'giu',              
           'ion',
           'iou',
           'sia$',
           '.ely$',             
           '[^td]ed$',          
          );

 foreach (@SubSyl) {
          $syl-- if $word =~ /$_/;
        }
Run Code Online (Sandbox Code Playgroud)

python regex perl

-1
推荐指数
1
解决办法
99
查看次数

标签 统计

python ×3

gensim ×1

lda ×1

pandas ×1

perl ×1

regex ×1

series ×1