用于计算文本块中的句子的正则表达式

GSt*_*Sto 6 php regex nlp

可能重复:
PHP - 如何将段落拆分为句子.

我有一个文本块,我想分成句子,这是最好的方法吗?我想找'.','!','?' 字符,但我意识到这有一些问题,例如当人们使用首字母缩略词,或者用类似的东西结束句子时!处理这个问题的最佳方法是什么?我认为会有一些正则表达式可以解决这个问题,但如果能更好地解决这个问题,我会对非正则表达式解决方案持开放态度.

whe*_*ies 2

正则表达式不是解决此问题的最佳方案。创建一个解析库会为您提供更好的服务。您可以轻松创建逻辑块来区分一件事与另一件事。您需要制定一组规则,将文本分解为您想要看到的块。

"Are you sure?" he asked.
Run Code Online (Sandbox Code Playgroud)

使用正则表达式时不会把事情搞砸吗?然而,使用解析器你实际上可以看到

<start quote><capitalization>are you sure<question><end quote>he asked<period>
Run Code Online (Sandbox Code Playgroud)

用简单的规则就可以说“这就是一句话”。