Joblib 内存使用量不断增长

Question

Joblib 内存使用量不断增长

fre*_*rie 7 memory parallel-processing pool python-2.7 joblib

我有以下问题。我的目的是处理一堆文档（将所有单词转换为正常形式，例如 'was' --> 'be', 'were' --> 'be', 'went' --> 'go'）。这意味着，我需要打开目录中的每个文件，更改其内容并将其保存在另一个目录中。
由于这个过程很耗时，我决定在joblib的帮助下进行并行处理。下面的代码可以正常工作（我的意思是，它执行了它必须执行的操作），但是我遇到了一个巨大的内存问题。
它一直在不断增长！
它会一直增长，直到服务器上根本没有剩余内存。

from joblib import delayed, Parallel

def process_text(text):
    # some function which processes
    # text and returns a new text
    return processed_text


def process_and_save(document_id):
    with open(path + document_id) as f:
        text = f.read()
    text = process_text(text)
    f = open(other_path + document_id, 'w')
    f.write(text)
    f.close()

all_doc_ids = # a list of document ids which I need to process

Parallel(n_jobs=10)(delayed(process_and_save)(doc_id) for doc_id in all_doc_ids)

Run Code Online (Sandbox Code Playgroud)

我还尝试将 joblib 更改为 multipricessing：

pool = Pool(10)
pool.map(process_and_save, all_doc_ids)

Run Code Online (Sandbox Code Playgroud)

但事实证明，情况完全一样。

有没有办法解决问题？当然，主要问题是，为什么会发生这种情况？

谢谢！

PS 文件很小，进程在没有并行的情况下运行时消耗的内存很少。

Answer 1

sta*_*dev 0

当您并行处理所有文档时，每个线程都会将整个文件加载到内存中，因为read()从内存中的整个文件创建一个字符串。

作为解决方法，您可以分块读取文件。参见Python中读取大文件的惰性方法？

归档时间：	8 年，5 月前
查看次数：	1937 次
最近记录：	6 年前