对没有标点符号的段落进行句子切分?

5 algorithm text nlp stanford-nlp opennlp

我有一堆格式错误的文本,其中缺少很多标点符号。我想知道是否有任何方法可以在缺少句点、分号、大写等的情况下将文本分割成句子。

例如,考虑这样一段话:“狮子被称为森林之王,它的容貌威严它吃肉它可以跑得很快,狮子的吼声很有名”

这段文字应该被分割成单独的句子:

  • 狮子被称为森林之王
  • 它有一个雄伟的外观
  • 它吃肉
  • 它可以运行得非常快
  • 狮子的吼叫声非常有名

这可以做到还是不可能?任何建议都非常感谢!

for*_*har 2

您可以尝试使用此处的以下Python实现。

import torch

model, example_texts, languages, punct, apply_te = torch.hub.load(repo_or_dir='snakers4/silero-models', model='silero_te')

#your text goes here. I imagine it is contained in some list

input_text = input('Enter input text\n') 
apply_te(input_text, lan='en')
Run Code Online (Sandbox Code Playgroud)