Sye*_*tan 12 nlp machine-learning feature-extraction information-extraction stanford-nlp
我试图在动词对之间实现关系提取.我想使用从一个动词到另一个动词的依赖路径作为我的分类器的一个特征(预测关系X是否存在).但我不确定如何将依赖路径编码为一个功能.以下是一些示例依赖路径,作为与StanfordCoreNLP Collapsed Dependencies的空格分隔关系注释:
nsubj acl nmod:from acl nmod:by conj:and
nsubj nmod:into
nsubj acl:relcl advmod nmod:of
Run Code Online (Sandbox Code Playgroud)
重要的是要记住,这些路径长度可变,并且可以不受任何限制地重新出现这种关系.
我想到的两种对这种功能进行编码的折衷方法是:
1)忽略序列,每个关系只有一个特征,其值是它在路径中出现的次数
2)具有长度为n的滑动窗口,并且对于每个可能的关系对具有一个特征,其值是这两个关系连续出现的次数.我想这是编码n-gram的方式.但是,可能关系的数量是50,这意味着我不能真正采用这种方法.
欢迎任何建议.
我们有一个项目基于依赖路径构建了一个分类器。我问了开发这个系统的组员,他说:
整个路径的指示器功能
因此,如果您有训练数据点(verb1 -e1-> w1 -e2-> w2 -e3-> w3 -e4-> verb2,relation1),则特征将为(e1-e2-e3-e4)
他还做了 ngram 序列,因此对于相同的数据点,您还会有 (e1)、(e2)、(e3)、(e4)、(e1-e2)、(e2-e3)、(e3-e4) ), (e1-e2-e3), (e2-e3-e4)
他还建议折叠同位边缘以使路径更小。
另外,我应该指出,他为每个关系开发了一套高精度规则,并用它来创建大量训练数据。
| 归档时间: |
|
| 查看次数: |
786 次 |
| 最近记录: |