kir*_*ran 5 text-processing nlp stanford-nlp opennlp apache-stanbol
我正在努力从出现在英文报纸上的各种广告中提取人名。
但是,我注意到在提取其中存在的名称之前,我需要确定广告的边界,因为我只需要提取第一个出现的名称。我从斯坦福 NLP 开始。我成功提取了名称。但我陷入了识别段落边界的困境。
有没有办法识别段落边界。?
这是一个难题,我们在一个项目中也面临着同样的问题。有一些理论论文有助于详细定义问题的范围和潜在的解决方案。我将把它们包括在下面。
我们仍处于研发过程中,因此还没有太多答案,但随着时间的推移,我们愿意分享我们所拥有的和发现的内容。
这是一篇这样的论文:
以下是他们使用的 ISCIBoost 代码的 github 链接:
Boostexter(基于 Adaboost 的分类器)的开源实现