我有一个 Twitter 用户列表 (screen_names),我需要根据他们的兴趣将他们分为 7 个预定义的类别 - 教育、艺术、体育、商业、政治、汽车、技术。我在 Python 中提取了用户的最后 100 条推文,并在清理推文后为每个用户创建了一个语料库。
如此处所述,将推文分类为(无监督数据/推文)的多个类别:
我正在尝试在每个类别下生成常用词的词典,以便我可以将其用于分类。
有没有一种方法可以自动为一组自定义单词生成这些词典?
然后我可以使用这些来使用 tf-idf 分类器对推特数据进行分类,并获得推文与每个类别的对应程度。最高值将为我们提供最可能的推文类别。
但是由于分类是基于这些预先生成的字典,我正在寻找一种方法来为自定义类别列表自动生成它们。
示例词典:
Education - ['book','teacher','student'....]
Automobiles - ['car','auto','expo',....]
Run Code Online (Sandbox Code Playgroud)
示例输入/输出:
**Input :**
UserA - "students visited share learning experience eye opening
article important preserve linaugural workshop students teachers
others know coding like know alphabets vision driving codeindia office
initiative get students tagging wrong people apologies apologies real
people work..."
.
.
UserN - <another corpus of cleaned tweets>
**Expected output** : …Run Code Online (Sandbox Code Playgroud) 因此,我切换到我的新笔记本电脑并尝试在最新版本的 Python 上安装 VirtualEnv。尽管它已成功安装,但当我创建一个新的虚拟环境并尝试激活它时,它会切换到新行,因为什么也没有发生。我检查了文件夹,我输入了正确的路径,它不在“bin”文件夹中。我不确定是什么原因导致了这个问题。我必须注意,我使用的是 Windows,并且没有使用 PowerShell。有任何想法吗?
PS 请注意,我知道它必须在括号中显示 VirtualEnv 的名称,但不幸的是,它没有。