5 algorithm text nlp stanford-nlp opennlp
我有一堆格式错误的文本,其中缺少很多标点符号。我想知道是否有任何方法可以在缺少句点、分号、大写等的情况下将文本分割成句子。
例如,考虑这样一段话:“狮子被称为森林之王,它的容貌威严它吃肉它可以跑得很快,狮子的吼声很有名”。
这段文字应该被分割成单独的句子:
这可以做到还是不可能?任何建议都非常感谢!
您可以尝试使用此处的以下Python实现。
import torch
model, example_texts, languages, punct, apply_te = torch.hub.load(repo_or_dir='snakers4/silero-models', model='silero_te')
#your text goes here. I imagine it is contained in some list
input_text = input('Enter input text\n')
apply_te(input_text, lan='en')
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1376 次 |
| 最近记录: |