如何使用OpenNLP和stringi检测句子边界？

Question

如何使用OpenNLP和stringi检测句子边界？

SRR*_*sel 12 regex r text-mining opennlp stringi

我想打破下string一句话:

library(NLP) # NLP_0.1-7  
string <- as.String("Mr. Brown comes. He says hello. i give him coffee.")

Run Code Online (Sandbox Code Playgroud)

我想展示两种不同的方式.一个来自包装openNLP:

library(openNLP) # openNLP_0.2-5  

sentence_token_annotator <- Maxent_Sent_Token_Annotator(language = "en")  
boundaries_sentences<-annotate(string, sentence_token_annotator)  
string[boundaries_sentences]  

[1] "Mr. Brown comes."   "He says hello."     "i give him coffee."

Run Code Online (Sandbox Code Playgroud)

第二个来自包装stringi:

library(stringi) # stringi_0.5-5  

stri_split_boundaries( string , opts_brkiter=stri_opts_brkiter('sentence'))

[[1]]  
 [1] "Mr. "                              "Brown comes. "                    
 [3] "He says hello. i give him coffee."

Run Code Online (Sandbox Code Playgroud)

在第二种方式之后,我需要准备句子以删除多余的空格或再次将新的字符串分解成句子.我可以调整stringi函数来提高结果的质量吗？

当它是一个大数据时,openNLP(非常)慢stringi.
有没有办法结合stringi( - >快速)和openNLP( - >质量)？

Answer 1

gag*_*ews 9

ICU中的文本边界(在本例中为句子边界)分析(因此在stringi中)由Unicode UAX29中描述的规则控制,另请参阅该主题的ICU用户指南.我们读:

[Unicode规则]无法检测到诸如"......先生.琼斯......"; 需要更复杂的剪裁来检测这种情况.

换句话说,如果没有实际上实现的不停词的自定义词典,就无法做到这一点openNLP.因此,将stringi用于执行此任务的几种可能方案包括:

使用stri_split_boundaries然后编写一个函数来决定应该连接哪些错误分割的标记.
手动在文本中输入不间断的空格(可能在点后面等,先生,即等等)(请注意,这在LaTeX中准备文档时实际上是必需的 - 否则在单词之间会有太大的空格).
将自定义不间断单词列表合并到正则表达式中并应用stri_split_regex.

等等.

Answer 2

Tyl*_*ker 5

这可能是一个可行的正则表达式解决方案:

string <- "Mr. Brown comes. He says hello. i give him coffee."
stringi::stri_split_regex(string, "(?<!\\w\\.\\w.)(?<![A-Z][a-z]\\.)(?<=\\.|\\?|\\!)\\s")

## [[1]]
## [1] "Mr. Brown comes."   "He says hello."     "i give him coffee."

Run Code Online (Sandbox Code Playgroud)

执行得不太好:

string <- "Mr. Brown comes! He says hello. i give him coffee.  i will got at 5 p. m. eastern time.  Or somewhere in between"

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，1 月前
查看次数：	705 次
最近记录：	10 年前