Ewe*_* W. 3 python nlp artificial-intelligence nltk
我是 NLTK 和机器学习的初学者,目标是为句子提供不确定性评级。例如,句子 likeThis is likely caused by a..的确定性得分为 6,而 as 的得分为There is definitely something wrong with me10,I think it could possibly happen得分为 3。
不管评分系统如何,“确定”和“不确定”的分类也可以满足我的需求。
我没有找到任何关于此的现有作品。我将如何处理这个问题?我确实有一些未经训练的文本数据。
据我所知,现有的 nlp 工具包没有这样的功能。
您必须训练自己的模型,为此您需要训练数据。如果您的数据集包含每个句子的不确定性标签,那么您可以在其上训练文本分类模型。
如果您没有标记数据,则有一个关于检测不确定性/对冲的CoNLL 2010 共享任务,并且应该提供该数据集。您可以访问 CoNLL 2010 数据集并在其上训练一个简单的文本分类器,并在您自己的数据集上使用经过训练的模型。假设您的数据的性质与他们的没有太大的不同,这应该可行。
对于文本分类,您可以简单地使用直接的scikit-learn库。
您可能还会发现以下参考资料很有用:
鲁宾、维多利亚等人。“文本中的确定性识别:分类模型和手动标记结果。” 文本中的计算态度和情感:理论与应用。2006. 61-76。
梅德洛克、本和泰德·布里斯科。“科学文献中对冲分类的弱监督学习。” 访问控制列表。卷。2007. 2007.
| 归档时间: |
|
| 查看次数: |
1027 次 |
| 最近记录: |