我从水事故报告中提取因果句.我在这里使用NLTK作为工具.我通过采用20个因果句结构手动创建了我的regExp语法[见下面的例子].构造的语法是类型的
grammar = r'''Cause: {<DT|IN|JJ>?<NN.*|PRP|EX><VBD><NN.*|PRP|VBD>?<.*>+<VBD|VBN>?<.*>+}'''
Run Code Online (Sandbox Code Playgroud)
现在语法在测试集上有100%回忆(我用50个因果句和50个非因果句构建了我自己的玩具数据集),但精度很低.我想问一下:
有没有人试图提取因果句子.例句因果句是:
村里的卫生设施很差,结果她有健康问题.
她的村庄里的水不纯净.因此,她患有寄生虫.
由于村里卫生条件差,她有健康问题.我想从大文本中只提取上述类型的句子.