Jef*_*ang 6 nlp text-segmentation
我记得很久以前从NLTK网站浏览句子分段部分.
我使用粗略的文本替换"句号""空格"和"句号""手动换行符"来实现句子分段,例如使用Microsoft Word替换(.
- > .^p
)或Chrome扩展程序:
https://github.com/AhmadHassanAwan/Sentence-Segmentation
https://chrome.google.com/webstore/detail/sentence-segmenter/jfbhkblbhhigbgdnijncccdndhbflcha
这不是像NLTK的Punkt标记化器那样的NLP方法.
我分段帮助我更容易找到并重读句子,这有时可以帮助阅读理解.
独立子句边界消歧和独立子句分割怎么样?是否有任何工具试图这样做?
下面是一些示例文本.如果在一个句子中可以识别出一个独立的条款,则会有一个分裂.从一个句子的结尾开始,它向左移动,并贪婪地分裂:
例如
句子边界消歧(SBD),也称为句子破坏,是决定在哪里的自然语言处理中的问题
句子开始和结束.
通常,自然语言处理工具
由于多种原因,他们要求将他们的输入分成句子.
然而,由于标点符号,句子边界识别具有挑战性
标记通常是模棱两可的.
对于例如,一个周期可以
表示缩写,小数点,省略号或电子邮件地址 - 而不是句子的结尾.
华尔街日报语料库中大约 47%的时期
表示缩写.[1]
同样,问号和感叹号也可能
出现在嵌入式引号,表情符号,计算机代码和俚语中.
另一种方法是自动进行
从句子中的一组文件中学习一套规则
休息是预先标记的.
日语和中文等语言
有明确的句子结尾标记.
该标准的"香草"的方式
找到句子的结尾:
(a)如果
这是一个时期,
它结束了一个句子.
(b)如果是前一个
令牌是我手工编译的缩写列表,然后
它没有结束一句话.
(c)如果下一个
然后,令牌大写
它结束了一个句子.
这个
策略获得约95%的句子正确.[2]
解决方案基于最大熵模型.[3]
该起价架构采用神经网络来
消除句子边界的歧义,达到98.5%的准确率.
(我不确定我是否正确拆分它.)
如果没有办法划分独立条款,是否有任何搜索条件可用于进一步探讨此主题?
谢谢.