小编San*_*ari的帖子

使用NLTK python提取因果句

我从水事故报告中提取因果句.我在这里使用NLTK作为工具.我通过采用20个因果句结构手动创建了我的regExp语法[见下面的例子].构造的语法是类型的

grammar = r'''Cause: {<DT|IN|JJ>?<NN.*|PRP|EX><VBD><NN.*|PRP|VBD>?<.*>+<VBD|VBN>?<.*>+}'''
Run Code Online (Sandbox Code Playgroud)

现在语法在测试集上有100%回忆(我用50个因果句和50个非因果句构建了我自己的玩具数据集),但精度很低.我想问一下:

  1. 如何训练NLTK自动构建正则表达式语法以提取特定类型的句子.
  2. 有没有人试图提取因果句子.例句因果句是:

    • 村里的卫生设施很差,结果她有健康问题.

    • 她的村庄里的水不纯净.因此,她患有寄生虫.

    • 由于村里卫生条件差,她有健康问题.我想从大文本中只提取上述类型的句子.

nlp nltk

9
推荐指数
1
解决办法
1704
查看次数

标签 统计

nlp ×1

nltk ×1