小编Gha*_*mus的帖子

如何使用 gensim wikicorpus 获取带有标点符号的维基百科语料库文本?

我正在尝试获取带有标点符号的文本,因为在我的 doc2vec 模型中考虑后者很重要。然而,维基语料库只检索文本。在网上搜索后,我找到了这些页面:

  1. 来自 gensim github 问题部分的页面。这是某个人提出的问题,答案是对 WikiCorpus 进行子类化(由 Piskvorky 回答)。幸运的是,在同一页面中,有一个代表建议的“子类”解决方案的代码。代码由 Rhazegh 提供。(链接
  2. 来自 stackoverflow 的页面,标题为:“在解析 wiki 语料库时禁用 Gensim 删除标点符号等”。但是,没有提供明确的答案,并在 spaCy 的上下文中进行了处理。(链接

我决定使用第 1 页中提供的代码。我当前的代码 (mywikicorpus.py):

import sys
import os
sys.path.append('C:\\Users\\Ghaliamus\\Anaconda2\\envs\\wiki\\Lib\\site-packages\\gensim\\corpora\\')

from wikicorpus import *

def tokenize(content):
    # override original method in wikicorpus.py
    return [token.encode('utf8') for token in utils.tokenize(content, lower=True, errors='ignore')
        if len(token) <= 15 and not token.startswith('_')]

def process_article(args):
   # override original method in wikicorpus.py
    text, lemmatize, title, pageid = args
    text = filter_wiki(text)
    if …
Run Code Online (Sandbox Code Playgroud)

python nlp gensim doc2vec

6
推荐指数
1
解决办法
2415
查看次数

标签 统计

doc2vec ×1

gensim ×1

nlp ×1

python ×1