小编Vic*_*ang的帖子

如何在Python Gensim中从主题分布比较两个文档之间的主题相似度？

我使用 Gensim 在语料库上训练了 LDA 模型。现在我已经有了每个文档的主题分布，如何比较两个文档的主题相似程度？我想要一个总结性的衡量标准。例如，以下是两个文档的主题分布。共有75个主题。为简洁起见，我仅显示概率最大的前 10 个主题（因此主题不按顺序排列）。(40, 0.5523168) 表示主题 #40 对于 DOC #1 的概率为 0.5523168。我应该计算两个向量之间的欧几里德距离或余弦距离吗？使用此汇总度量，我是否可以说，例如，DOC 1 与 DOC2 比 DOC3 更相似，或者 DOC1 和 DOC 2 在主题上比 DOC 3 和 DOC 4 更相似？谢谢你！

DOC #1:
[(40, 0.5523168), (60, 0.12225048), (43, 0.07556598), (41, 0.065885976), 
(22, 0.05838573), (24, 0.044774733), (74, 0.019839266), (65, 0.019544959), 
(51, 0.015470431), (36, 0.013449047)]


DOC #2:
[(73, 0.58864516), (41, 0.16827711), (51, 0.09783472), (63, 0.06510383), 
(24, 0.04722658), (32, 0.014467965), (44, 0.012267662), (47, 0.0031533625), 
(18, 0.0022214972), (0, 1.2154361e-05)]

Run Code Online (Sandbox Code Playgroud)

python lda gensim

Vic*_*ang

2019 03-22

4
推荐指数

1
解决办法

3834
查看次数

Pandas DataFrame：为什么我不能通过行迭代基于另一列的值来更改一列的值？

我想根据另一列的值更改一列的值。例如，给定以下DF：

   Freq TOC
1    10  NA
2    20  NA
3    30  NA

for index, row in df.iterrows():
    if row["Freq"] == 20:
        row["TOC"] = True

Run Code Online (Sandbox Code Playgroud)

我期望：

   Freq TOC
1    10  NA
2    20  True
3    30  NA

Run Code Online (Sandbox Code Playgroud)

但是什么都没有改变。怎么了？谢谢。

python series pandas

Vic*_*ang

2019 10-15

2
推荐指数

2
解决办法

622
查看次数

Perl中的=〜相当于Python中的re.match吗？

我正在尝试用Python复制Perl Fathom.此步骤校正某些单词组合的音节计数.=〜相当于Python中的re.match？re.match只查找第一个实例.谢谢!

 @SubSyl = (
           'cial',
           'tia',
           'cius',
           'cious',
           'giu',              
           'ion',
           'iou',
           'sia$',
           '.ely$',             
           '[^td]ed$',          
          );

 foreach (@SubSyl) {
          $syl-- if $word =~ /$_/;
        }

Run Code Online (Sandbox Code Playgroud)

python regex perl

Vic*_*ang

lucky-day

-1
推荐指数

1
解决办法

99
查看次数