如何检测 NLTK Python 中文本的不确定性？

Question

如何检测 NLTK Python 中文本的不确定性？

Ewe*_* W. 3 python nlp artificial-intelligence nltk

我是 NLTK 和机器学习的初学者，目标是为句子提供不确定性评级。例如，句子 likeThis is likely caused by a..的确定性得分为 6，而 as 的得分为There is definitely something wrong with me10，I think it could possibly happen得分为 3。

不管评分系统如何，“确定”和“不确定”的分类也可以满足我的需求。

我没有找到任何关于此的现有作品。我将如何处理这个问题？我确实有一些未经训练的文本数据。

Answer 1

Cen*_*tAu 5

据我所知，现有的 nlp 工具包没有这样的功能。

您必须训练自己的模型，为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签，那么您可以在其上训练文本分类模型。

如果您没有标记数据，则有一个关于检测不确定性/对冲的CoNLL 2010 共享任务，并且应该提供该数据集。您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器，并在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大的不同，这应该可行。

对于文本分类，您可以简单地使用直接的scikit-learn库。

您可能还会发现以下参考资料很有用：

鲁宾、维多利亚等人。“文本中的确定性识别：分类模型和手动标记结果。” 文本中的计算态度和情感：理论与应用。2006. 61-76。
梅德洛克、本和泰德·布里斯科。“科学文献中对冲分类的弱监督学习。” 访问控制列表。卷。2007. 2007.

归档时间：	9 年，5 月前
查看次数：	1027 次
最近记录：	9 年，5 月前