将实体命名为文本分类中的功能?

sam*_*ara 7 text classification machine-learning named-entity-recognition

使用现有的文本分类(监督)技术,为什么我们不将文本中的命名实体(NE)视为培训和测试中的一个特征?您认为使用NE作为功能可以提高精度吗?

Yav*_*var 3

这在很大程度上取决于您所工作的领域。您必须根据领域定义功能。假设在搜索引擎中您正在学习排名问题,生成动态排名,NE 不会给您带来任何好处。它在很大程度上取决于您正在工作的领域以及定义的输出分类标签(监督学习)。

现在假设您正在对与足球、电影或政治等相关的文档进行分类。在这种情况下,命名实体可以工作。我在这里给你一个例子,假设你正在使用一个神经网络,它将文档分类为足球、电影、政治等。现在假设一个文档是“莱昂内尔·梅西被邀请参加“社交网络”的首映式,也出席了演员和工作人员包括杰西·艾森伯格、安德鲁·加菲尔德和贾斯汀·汀布莱克”这里命名实体(输入特征)和电影(输出定义)之间的联系会更强,因此它将被分类为电影文档。

另一个例子,假设我们的文档是“汤姆·克鲁斯在电影《最后一场足球比赛》中扮演莱昂内尔·梅西的角色。这样做的好处是,你的神经网络已经了解到,当演员和足球运动员聚集在一个文档中时,它很可能是一部电影。同样,这取决于数据和训练,也可能是相反的情况(但这就是学习的全部内容;查看过去的数据)

所以我的答案是尝试一下,没有人阻止你将命名实体作为特征。它可能对您正在工作的领域有所帮助。