如何使用 BERTopics 计算各个主题下每个文档的概率？

Question

如何使用 BERTopics 计算各个主题下每个文档的概率？

qwe*_*u13 3 python nlp topic-modeling bert-language-model

我正在尝试使用BERTopic分析文档的主题分布，BERTopic执行后，我想计算每个文档各自主题下的概率，我应该怎么做？

# define model
model = BERTopic(verbose=True,
                 vectorizer_model=vectorizer_model,
                 embedding_model='paraphrase-MiniLM-L3-v2',
                 min_topic_size= 50,
                 nr_topics=10)

#  train model
headline_topics, _ = model.fit_transform(df1.review_processed3)

# examine one of the topic
a_topic = freq.iloc[0]["Topic"] # Select the 1st topic
model.get_topic(a_topic) # Show the words and their c-TF-IDF scores

Run Code Online (Sandbox Code Playgroud)

下面是主题图像 1之一的单词及其 c-TF-IDF 分数

我应该如何将结果更改为如下主题分布，以便计算主题分布分数并确定主要主题？图2

Answer 1

Ste*_*n87 5

首先，要计算概率，您必须添加到模型定义中calculate_probabilities=True（如果您有很多文档，> 100000，这可能会减慢主题的提取速度）。

# define model
model = BERTopic(verbose=True,
                 vectorizer_model=vectorizer_model,
                 embedding_model='paraphrase-MiniLM-L3-v2',
                 min_topic_size= 50,
                 nr_topics=10,
                 calculate_probabilities=True)

Run Code Online (Sandbox Code Playgroud)

然后，调用fit_transform，您应该保存概率：

headline_topics, probs = model.fit_transform(df1.review_processed3)

Run Code Online (Sandbox Code Playgroud)

现在，您可以创建一个 pandas 数据框，它显示每个文档各自主题下的概率。

import pandas as pd
probs_df=pd.DataFrame(probs)
probs_df['main percentage'] = pd.DataFrame({'max': probs_df.max(axis=1)})

Run Code Online (Sandbox Code Playgroud)

归档时间：	3 年，5 月前
查看次数：	1998 次
最近记录：	3 年，5 月前