具有仅正和未标记数据集的二元半监督分类

imk*_*han 2 classification scikit-learn

我的数据由评论(保存在文件中)组成,其中很少被标记为正面。我想使用半监督和PU分类将这些评论分为正面和负面类别。我想知道python(scikit-learn)中是否有半监督和PU实现的公共实现?

And*_*ler 5

您可以尝试训练一类 SVM,看看会产生什么样的结果。我没听说过PU纸。我认为出于所有实际目的,您最好标记一些点,然后使用半监督方法。如果很难找到负点,我会尝试使用启发式方法来查找假定的负点(我认为这类似于 PU 论文中的技术)。您可以对未标记的与正的进行分类,然后只查看那些得分高的未标记的,或者学习一类 SVM 或类似的,然后在异常值中寻找负点。

如果您对实际解决任务感兴趣,我宁愿花时间在手动标记上而不是实施花哨的方法。