小编Mar*_*orn的帖子

如何更快地计算nltk plaintextcorpus中的单词?

我有一组文档,我想返回一个元组列表,其中每个元组具有给定文档的日期以及给定搜索项在该文档中出现的次数.我的代码(下面)有效,但速度很慢,而且我是n00b.是否有明显的方法可以加快速度?任何帮助都会非常感激,主要是因为我可以学习更好的编码,但也可以让我更快地完成这个项目!

def searchText(searchword):
    counts = []
    corpus_root = 'some_dir'
    wordlists = PlaintextCorpusReader(corpus_root, '.*')
    for id in wordlists.fileids():
        date = id[4:12]
        month = date[-4:-2]
        day = date[-2:]
        year = date[:4]
        raw = wordlists.raw(id)
        tokens = nltk.word_tokenize(raw)
        text = nltk.Text(tokens)
        count = text.count(searchword)
        counts.append((month, day, year, count))

    return counts
Run Code Online (Sandbox Code Playgroud)

python nlp corpus nltk

5
推荐指数
1
解决办法
6731
查看次数

标签 统计

corpus ×1

nlp ×1

nltk ×1

python ×1