小编ZdW*_*ite的帖子

如何修复/调试scikit中引发的此多进程终止的工作程序错误学习

我最近安装了一台新机器,以帮助减少拟合模型和数据整理的运行时间。

我做了一些初步的基准测试,一切都变得很顺畅,但是当我尝试使用scikit学习启用多进程工作者时遇到了麻烦。

我简化了该错误,使其与原始代码无关,因为我启用了此功能,而在其他计算机和VM上都没有问题。

我还完成了内存分配检查,以确保我的机器没有耗尽可用的RAM。我有16gb的RAM,所以应该没有问题,但是如果我错过了一些东西,我就保留了测试的输出。

考虑到附近的回溯错误,我可以告诉我的操作系统正在杀死它,但是对于我一生来说,我不知道为什么。据我所知,我的代码仅在使用单个CPU内核时才运行。

我正在运行Windows 10,AMD ryzen 7 2700x,16GB RAM

import sklearn
import numpy as np
import tracemalloc
import time


from sklearn.model_selection import cross_val_score
from numpy.random import randn
from sklearn.linear_model import Ridge


##################### memory allocation snapshot

tracemalloc.start()

start_time = time.time()
snapshot1 = tracemalloc.take_snapshot()

###################### model

X = randn(815000, 100)
y = randn(815000, 1)
mod = Ridge()
sc = cross_val_score(mod, X, y,verbose =10, n_jobs=3)

################### Second memory allocation snapshot

snapshot2 = tracemalloc.take_snapshot()
top_stats = snapshot2.compare_to(snapshot1, 'lineno')

print("[ Top 10 …
Run Code Online (Sandbox Code Playgroud)

python multiprocessing scipy scikit-learn

3
推荐指数
1
解决办法
3124
查看次数

将 dask 数据框中的列转换为 Doc2Vec 的 TaggedDocument

介绍

目前,我正在尝试将 dask 与 gensim 配合使用来进行 NLP 文档计算,并且在将我的语料库转换为“ TaggedDocument ”时遇到问题。

因为我尝试了很多不同的方法来解决这个问题,所以我将列出我的尝试。

每次处理这个问题的尝试都会遇到略有不同的困境。

首先是一些初步的假设。

数据

df.info()
<class 'dask.dataframe.core.DataFrame'>
Columns: 5 entries, claim_no to litigation
dtypes: object(2), int64(3)
Run Code Online (Sandbox Code Playgroud)
  claim_no   claim_txt I                                    CL ICC lit
0 8697278-17 battery comprising interior battery active ele... 106 2 0
Run Code Online (Sandbox Code Playgroud)

所需输出

>>tagged_document[0]
>>TaggedDocument(words=['battery', 'comprising', 'interior', 'battery', 'active', 'elements', 'battery', 'cell', 'casing', 'said', 'cell', 'casing', 'comprising', 'first', 'casing', 'element', 'first', 'contact', 'surface', 'second', 'casing', 'element', 'second', 'contact', 'surface', 'wherein', 'assembled', 'position', 'first', 'second', 'contact', 'surfaces', 'contact', 'first', 'second', …
Run Code Online (Sandbox Code Playgroud)

python gensim dask doc2vec

2
推荐指数
1
解决办法
1335
查看次数

标签 统计

python ×2

dask ×1

doc2vec ×1

gensim ×1

multiprocessing ×1

scikit-learn ×1

scipy ×1