我使用的nltk.word_tokenize是达里语.问题是我们在一个单词之间有空格.
例如,"???? ??"这意味着生命.和相同的; 我们还有很多其他的话.所有以字符结尾的单词"?"我们必须给它一个空格,否则,它可以组合起来如"??????".
任何人都可以帮助我使用[tag:regex]或任何其他方式不应该标记一个单词的一部分结束的单词"?",之后,将有该"? "字符.
我从文件中读取,如果找到".",则应"\n"在文本中添加换行符并将其写回到文件中。我尝试了此代码,但仍然有问题。
inp = open('rawCorpus.txt', 'r')
out = open("testFile.text", "w")
for line in iter(inp):
l = line.split()
if l.endswith(".")
out.write("\n")
s = '\n'.join(l)
print(s)
out.write(str(s))
inp.close()
out.close()
Run Code Online (Sandbox Code Playgroud) python ×2
nltk ×1
nltk-book ×1
nltk-trainer ×1
python-2.7 ×1
python-3.x ×1
regex ×1
wxpython ×1