如何检测 NLTK Python 中文本的不确定性?

Ewe*_* W. 3 python nlp artificial-intelligence nltk

我是 NLTK 和机器学习的初学者,目标是为句子提供不确定性评级。例如,句子 likeThis is likely caused by a..的确定性得分为 6,而 as 的得分为There is definitely something wrong with me10,I think it could possibly happen得分为 3。

不管评分系统如何,“确定”和“不确定”的分类也可以满足我的需求。

我没有找到任何关于此的现有作品。我将如何处理这个问题?我确实有一些未经训练的文本数据。

Cen*_*tAu 5

据我所知,现有的 nlp 工具包没有这样的功能。

您必须训练自己的模型,为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签,那么您可以在其上训练文本分类模型。

如果您没有标记数据,则有一个关于检测不确定性/对冲的CoNLL 2010 共享任务,并且应该提供该数据集。您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器,并在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大的不同,这应该可行。

对于文本分类,您可以简单地使用直接的scikit-learn库。

您可能还会发现以下参考资料很有用: