Gol*_*sar 13 grammar parsing nlp artificial-intelligence machine-learning
有没有办法找到仍然有意义且至少包含一个主语,动词和谓词/宾语的句子的所有子句?
例如,如果我们有一句话,"我将在下个月在奥斯汀的SXSW举办关于NLP的研讨会".我们可以从这句话中提取以下有意义的子句:"我要去做一个研讨会","我要做一个关于NLP的研讨会","我将在SXSW做一个关于NLP的研讨会","我打算在SXSW做一个研讨会","我将在奥斯汀做一个研讨会","我将在下个月做一个关于NLP的研讨会",等等.
请注意,此处没有推断的句子(例如"下个月将在SXSW举行NLP研讨会".虽然这是真的,但我们不需要将此作为此问题的一部分.).所有生成的句子都是给定句子的一部分.
我们如何解决这个问题呢?我正在考虑创建带注释的训练数据,该训练数据具有训练数据集中每个句子的一组合法子句子.然后编写一些监督学习算法来生成模型.
我是NLP和机器学习的新手,所以如果你们能提出一些方法来解决这个问题,那将会很棒.
Kha*_*rul 10
您可以使用Stanford CoreNLP提供的依赖解析器.您的句子的折叠输出将如下所示.
nsubj(going-3, I-1)
xsubj(do-5, I-1)
aux(going-3, am-2)
root(ROOT-0, going-3)
aux(do-5, to-4)
xcomp(going-3, do-5)
det(seminar-7, a-6)
dobj(do-5, seminar-7)
prep_on(seminar-7, NLP-9)
prep_at(do-5, -11)
prep_in(do-5, Austin-13)
amod(month-15, next-14)
tmod(do-5, month-15)
Run Code Online (Sandbox Code Playgroud)
句子输出的最后5个是可选的.您可以删除一个或多个对您的句子不重要的部分.
大多数这些可选部分属于介词和修饰符,例如:prep_in,prep_do,advmod,tmod等.请参阅斯坦福依赖手册.
例如,如果从输出中删除所有修饰符,则会得到
我打算在奥斯汀的SXSW做NLP研讨会.
Hickl等人撰写了一篇题为"使用话语承诺来识别文本蕴涵"的论文,讨论了话语承诺的提取(子句).本文包括他们的算法的描述,在某种程度上对规则进行操作.他们将它用于RTE,输出中可能会有一些最小程度的扣除.文本简化可能是一个相关的领域.
小智 5
以下论文http://www.mpi-inf.mpg.de/~rgemulla/publications/delcorro13clausie.pdf处理来自斯坦福解析器的依赖关系并构造简单子句(文本简化).
请参阅在线演示 - https://d5gate.ag5.mpi-sb.mpg.de/ClausIEGate/ClausIEGate
| 归档时间: |
|
| 查看次数: |
3975 次 |
| 最近记录: |