小编use*_*293的帖子

找到多组交集的最佳方法是什么?

我有一套套装:

setlist = [s1,s2,s3...]
Run Code Online (Sandbox Code Playgroud)

我想要s1∩s2∩s3...

我可以通过执行一系列成对s1.intersection(s2)等来编写一个函数来完成它.

有推荐的,更好的或内置的方式吗?

python set set-intersection

232
推荐指数
5
解决办法
14万
查看次数

使用h5py对hdf5进行增量写入

我有一个关于如何使用python/h5py最好地写入hdf5文件的问题.

我有以下数据:

-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178       | 10       | 12       | ...
-----------------------------------------
| 179       | 12       | 11       | ...
-----------------------------------------
| 185       | 9        | 12       | ...
-----------------------------------------
| 187       | 15       | 12       | ...
                    ...
Run Code Online (Sandbox Code Playgroud)

大约10 ^ 4列,大约10 ^ 7行.(大约10 ^ 11(1000亿)个元素,或者~100GB,1个字节的整数).

使用这些数据,典型的使用几乎是一次写入,多次读取,典型的读取案例是获取第1列和另一列(比如254),将两列加载到内存中,并做一些奇特的统计.

我认为一个好的hdf5结构将使上表中的每列都是hdf5组,从而产生10 ^ 4组.这样我们就不需要将所有数据都读入内存了,是吗?hdf5结构虽然尚未定义,但它可以是任何东西.

现在的问题是:我一次收到~10 ^ 4行的数据(并且每次都没有完全相同的行数),需要将其逐步写入hdf5文件.我该怎么写这个文件?

我正在考虑python和h5py,但如果推荐的话可以使用其他工具.正在进行分组,例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))
Run Code Online (Sandbox Code Playgroud)

然后当另一个10 ^ 4行的块到达时,替换数据集?

或者将每个10 ^ 4行的块存储为单独的数据集更好?或者我真的需要知道最后的行数吗?(这很难获得,但也许可能).

我可以保释hdf5,如果它也不是适合这项工作的工具,不过我认为一旦尴尬的写作完成,它就会很精彩.

python hdf5 h5py

23
推荐指数
2
解决办法
2万
查看次数

如何在不添加"Row.names"列的情况下按行名合并数据帧?

如果我有两个数据框,例如:

df1 = data.frame(x=1:3,y=1:3,row.names=c('r1','r2','r3'))
df2 = data.frame(z=5:7,row.names=c('r5','r6','r7'))
Run Code Online (Sandbox Code Playgroud)

(

R> df1
   x y
r1 1 1
r2 2 2
r3 3 3

R> df2
   z
r5 5
r6 6
r7 7
Run Code Online (Sandbox Code Playgroud)

),我想通过行名称合并它们,保留所有内容(所以外连接,或全部= T).这样做:

merged.df <- merge(df1,df2,all=T,by='row.names')
R> merged.df
  Row.names  x  y  z
1        r1  1  1 NA
2        r2  2  2 NA
3        r3  3  3 NA
4        r5 NA NA  5
5        r6 NA NA  6
6        r7 NA NA  7
Run Code Online (Sandbox Code Playgroud)

但我希望输入行名称是输出数据框(merged.df)中的行名称.

我可以:

rownames(merged.df) <- merged.df[[1]]
merged.df <- merged.df[-1]
Run Code Online (Sandbox Code Playgroud)

这有效,但似乎不优雅,难以记住.有人知道更清洁的方式吗?

merge r dataframe

12
推荐指数
2
解决办法
1万
查看次数

标签 统计

python ×2

dataframe ×1

h5py ×1

hdf5 ×1

merge ×1

r ×1

set ×1

set-intersection ×1