我有成千上万的文本文件,我想以各种方式解析.我想将输出保存到单个文件而不会出现同步问题.我一直在使用多处理池来节省时间,但我无法弄清楚如何组合池和队列.
以下代码将保存infile名称以及文件中连续"x"的最大数量.但是,我希望所有进程将结果保存到同一个文件,而不是像我的示例中那样保存到不同的文件.任何有关这方面的帮助将不胜感激.
import multiprocessing
with open('infilenamess.txt') as f:
filenames = f.read().splitlines()
def mp_worker(filename):
with open(filename, 'r') as f:
text=f.read()
m=re.findall("x+", text)
count=len(max(m, key=len))
outfile=open(filename+'_results.txt', 'a')
outfile.write(str(filename)+'|'+str(count)+'\n')
outfile.close()
def mp_handler():
p = multiprocessing.Pool(32)
p.map(mp_worker, filenames)
if __name__ == '__main__':
mp_handler()
Run Code Online (Sandbox Code Playgroud) 在写入我通过将其传递给使用多处理实现的工作函数共享的打开文件时,文件内容未正确写入。相反 '^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@^@ ^@^@^@^@^@^@^@^@^' 写入文件。
为什么会发生这种情况?您不能将多个多处理单元写入同一个文件吗?你需要使用锁吗?队列?我是否没有正确或有效地使用多处理?
我觉得一些示例代码可能会有所帮助,但请仅将其作为我打开文件并通过多处理将打开的文件传递给另一个对该文件进行写入的函数的参考。
多处理文件:
import multiprocessing as mp
class PrepWorker():
def worker(self, open_file):
for i in range(1,1000000):
data = GetDataAboutI() # This function would be in a separate file
open_file.write(data)
open_file.flush()
return
if __name__ == '__main__':
open_file = open('/data/test.csv', 'w+')
for i in range(4):
p = mp.Process(target=PrepWorker().worker, args=(open_file,))
jobs.append(p)
p.start()
for j in jobs:
j.join()
print '{0}.exitcode = {1}' .format(j.name, j.exitcode)
open_file.close()
Run Code Online (Sandbox Code Playgroud)