独立子句边界消歧和独立子句分割 - 任何工具都可以做到这一点?

Jef*_*ang 6 nlp text-segmentation

我记得很久以前从NLTK网站浏览句子分段部分.

我使用粗略的文本替换"句号""空格"和"句号""手动换行符"来实现句子分段,例如使用Microsoft Word替换(.- > .^p)或Chrome扩展程序:

https://github.com/AhmadHassanAwan/Sentence-Segmentation

https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha

这不是像NLTK的Punkt标记化器那样的NLP方法.

我分段帮助我更容易找到并重读句子,这有时可以帮助阅读理解.

独立子句边界消歧和独立子句分割怎么样?是否有任何工具试图这样做?

下面是一些示例文本.如果在一个句子中可以识别出一个独立的条款,则会有一个分裂.从一个句子的结尾开始,它向左移动,并贪婪地分裂:

例如

句子边界消歧(SBD),也称为句子破坏,是决定在哪里的自然语言处理中的问题

句子开始和结束.

通常,自然语言处理工具

由于多种原因,他们要求将他们的输入分成句子.

然而,由于标点符号,句子边界识别具有挑战性

标记通常是模棱两可的.

对于例如,一个周期可以

表示缩写,小数点,省略号或电子邮件地址 - 而不是句子的结尾.

华尔街日报语料库中大约 47%的时期

表示缩写.[1]

同样,问号和感叹号也可能

出现在嵌入式引号,表情符号,计算机代码和俚语中.

另一种方法是自动进行

从句子中的一组文件中学习一套规则

休息是预先标记的.

日语和中文等语言

有明确的句子结尾标记.

标准的"香草"的方式

找到句子的结尾:

(a)如果

这是一个时期,

它结束了一个句子.

(b)如果是前一个

令牌是我手工编译的缩写列表,然后

它没有结束一句话.

(c)如果下一个

然后,令牌大写

它结束了一个句子.

这个

策略获得约95%的句子正确.[2]

解决方案基于最大熵模型.[3]

起价架构采用神经网络来

消除句子边界的歧义,达到98.5%的准确率.

(我不确定我是否正确拆分它.)

如果没有办法划分独立条款,是否有任何搜索条件可用于进一步探讨此主题?

谢谢.

Cht*_*ect 5

据我所知,没有现成的工具可以解决这个确切的问题。通常,NLP 系统不会遇到识别英语语法定义的不同类型的句子和从句的问题。EMNLP 上发表了一篇论文,该论文提供了一种算法,该算法使用SBAR解析树中的标签来识别句子中的独立从属子句。

您应该会发现本文的第 3 部分很有用。它详细讨论了英语语法,但我认为整篇论文与您的问题无关。

请注意,他们使用了 Berkeley 解析器(此处提供了演示),但您显然可以使用任何其他选区解析工具(例如,此处提供的斯坦福解析器演示)。