小编Vic*_*DDT的帖子

Python:空间和内存消耗

1 - 问题

我在 python 上使用“spacy”进行文本文档词形还原。有 500,000 个文档的大小高达 20 Mb 的干净文本。

问题如下:spacy 内存消耗随着时间的推移而增长,直到使用整个内存。

2 - 背景

我的硬件配置: CPU:Intel I7-8700K 3.7 GHz(12 核)内存:16 Gb SSD:板载 1 Tb GPU,但不用于此任务

我正在使用“多处理”在多个进程(工人)之间拆分任务。每个工作人员都会收到一份要处理的文件列表。主进程执行子进程的监视。我在每个子进程中启动一次“spacy”,并使用这个 spacy 实例来处理 worker 中的整个文档列表。

内存跟踪说明如下:

[内存跟踪 - 前 10 名]

/opt/develop/virtualenv/lib/python3.6/site-packages/thinc/neural/mem.py:68: size=45.1 MiB, count=99, average=467 KiB

/opt/develop/virtualenv/lib/python3.6/posixpath.py:149: size=40.3 MiB, count=694225, average=61 B

:487:大小=9550 KiB,计数=77746,平均值=126 B

/opt/develop/virtualenv/lib/python3.6/site-packages/dawg_python/wrapper.py:33: size=7901 KiB, count=6, average=1317 KiB

/opt/develop/virtualenv/lib/python3.6/site-packages/spacy/lang/en/lemmatizer/_nouns.py:7114: size=5273 KiB, count=57494, average=94 B

prepare_docs04.py:372:大小=4189 KiB,计数=1,平均值=4189 KiB

/opt/develop/virtualenv/lib/python3.6/site-packages/dawg_python/wrapper.py:93: size=3949 KiB, count=5, average=790 KiB

/usr/lib/python3.6/json/decoder.py:355: size=1837 KiB, count=20456, average=92 B …

python-3.x spacy

9
推荐指数
2
解决办法
4391
查看次数

标签 统计

python-3.x ×1

spacy ×1