相关疑难解决方法(0)

Python多处理安全地写入文件

我正在尝试解决一个涉及大量子问题的大数值问题,我正在使用Python的多处理模块(特别是Pool.map)将不同的独立子问题拆分到不同的核心上.每个子问题涉及计算大量的子子问题,我试图通过将它们存储到文件中来有效地记忆这些结果,如果它们还没有被任何进程计算,否则跳过计算并只读取文件中的结果.

我有文件的并发问题:不同的进程有时检查是否已经计算了子子问题(通过查找存储结果的文件),看到它没有,运行计算,然后尝试同时将结果写入同一文件.我该如何避免写这样的碰撞？

python io mutex multiprocessing

Big*_*ogg

lucky-day

59
推荐指数

1
解决办法

5万
查看次数

在不加载内存的情况下随机播放大量项目

我有一个大约20亿行文本的文件(~200gig).我想生成一个包含相同文本行的新文件,但是按行随机洗牌.我无法将所有数据保存在内存中.有没有一个很好的方法在python /命令行中执行此操作需要一段合理的时间(几天)？

我以为我可以触摸50个空文件.流过20亿行文件,并将每行随机分配到50个空文件中的一个.然后cat 50个文件.对这种方法有任何重大的系统偏见吗？

python shuffle

dae*_*onk

2014 06-30

13
推荐指数

3
解决办法

4736
查看次数

在Pandas中使用多处理读取csv文件的最简单方法

这是我的问题.
随着一堆.csv文件(或其他文件).熊猫是一种简单的阅读方式并保存为Dataframe格式.但是当文件量很大时,我想用多处理来读取文件以节省一些时间.

我早期的尝试

我手动将文件分成不同的路径.分别使用:

os.chdir("./task_1)
files = os.listdir('.')
files.sort()
for file in files:
    filename,extname = os.path.splitext(file)
    if extname == '.csv':
        f = pd.read_csv(file)
        df = (f.VALUE.as_matrix()).reshape(75,90)

Run Code Online (Sandbox Code Playgroud)

然后结合它们.

如何运行它们pool来实现我的问题？
任何建议将不胜感激!

python csv multiprocessing pandas

Han*_*gzu

lucky-day

8
推荐指数

2
解决办法

1万
查看次数

标签统计

python ×3

multiprocessing ×2

csv ×1

io ×1

mutex ×1

pandas ×1

shuffle ×1

Python多处理安全地写入文件

在不加载内存的情况下随机播放大量项目

在Pandas中使用多处理读取csv文件的最简单方法

我早期的尝试

标签 统计

标签统计