小编Pie*_*ter的帖子

R中有没有一种方法可以分隔缺少空格的句子,即“句子一.句子二”?

我从 XML 文件中抓取了一些文本块,这些文本块经常缺少句子之间的空格。我已经str_split成功地将这些块分解成易于理解的句子,如下所示:

list_of_strings <- str_split(chunk_of_text, pattern=boundary("sentence")
Run Code Online (Sandbox Code Playgroud)

这工作得很好,但它不能处理终止句号后面没有空格的情况。例如,"This sentence ends.This sentence continues." 它返回 1 个句子,而不是两个。

使用str_splitwithpattern=boundary("sentence")不起作用。

如果我搜索句点并将其替换为句点空格,当然会弄乱 1.5 磅之类的数字。

我探索过使用通配符来检测情况,例如,

str_view_all(x, "[[:alpha:]]\\.[[:alpha:]]"))
Run Code Online (Sandbox Code Playgroud)

但我不知道如何 1) 在句点后插入一个空格,以便后续对 str_split 的调用正常工作,或 2) 在句点处拆分。

发生这种情况时,有什么关于分隔句子的建议吗?

R程序员新手,感谢您的帮助!

regex r text-parsing stringr

3
推荐指数
1
解决办法
83
查看次数

标签 统计

r ×1

regex ×1

stringr ×1

text-parsing ×1