小编Gha*_*mus的帖子

如何使用 gensim wikicorpus 获取带有标点符号的维基百科语料库文本？

我正在尝试获取带有标点符号的文本，因为在我的 doc2vec 模型中考虑后者很重要。然而，维基语料库只检索文本。在网上搜索后，我找到了这些页面：

来自 gensim github 问题部分的页面。这是某个人提出的问题，答案是对 WikiCorpus 进行子类化（由 Piskvorky 回答）。幸运的是，在同一页面中，有一个代表建议的“子类”解决方案的代码。代码由 Rhazegh 提供。（链接）
来自 stackoverflow 的页面，标题为：“在解析 wiki 语料库时禁用 Gensim 删除标点符号等”。但是，没有提供明确的答案，并在 spaCy 的上下文中进行了处理。（链接）

我决定使用第 1 页中提供的代码。我当前的代码 (mywikicorpus.py)：

import sys
import os
sys.path.append('C:\\Users\\Ghaliamus\\Anaconda2\\envs\\wiki\\Lib\\site-packages\\gensim\\corpora\\')

from wikicorpus import *

def tokenize(content):
    # override original method in wikicorpus.py
    return [token.encode('utf8') for token in utils.tokenize(content, lower=True, errors='ignore')
        if len(token) <= 15 and not token.startswith('_')]

def process_article(args):
   # override original method in wikicorpus.py
    text, lemmatize, title, pageid = args
    text = filter_wiki(text)
    if …

Run Code Online (Sandbox Code Playgroud)

python nlp gensim doc2vec

Gha*_*mus

lucky-day

6
推荐指数

1
解决办法

2415
查看次数