小编Nin*_*den的帖子

熊猫比较下一行

我有这样的数据帧

d={}
d['z']=['Q8','Q8','Q7','Q9','Q9']
d['t']=['10:30','10:31','10:38','10:40','10:41']
d['qty']=[20,20,9,12,12]
Run Code Online (Sandbox Code Playgroud)

我想比较第一行和第二行

  1. 与下一行AND相同
  2. 在下一行AND中更大
  3. 是z值与下一行相同

期望值是

   qty                   t   z  valid
0   20 2015-06-05 10:30:00  Q8  False
1   20 2015-06-05 10:31:00  Q8   True
2    9 2015-06-05 10:38:00  Q7  False
3   12 2015-06-05 10:40:00  Q9  False
4   12 2015-06-05 10:41:00  Q9   True
Run Code Online (Sandbox Code Playgroud)

python time-series dataframe pandas

24
推荐指数
1
解决办法
2万
查看次数

Pandas groupby为零值

我在csv文件中有这样的数据

Symbol,Action,Year
AAPL,Buy,2001
AAPL,Buy,2001
BAC,Sell,2002
BAC,Sell,2002
Run Code Online (Sandbox Code Playgroud)

我能够像这样阅读它和groupby

df.groupby(['Symbol','Year']).count()
Run Code Online (Sandbox Code Playgroud)

我明白了

             Action
Symbol Year        
AAPL   2001       2
BAC    2002       2
Run Code Online (Sandbox Code Playgroud)

我希望这个(顺序无关紧要)

             Action
Symbol Year        
AAPL   2001       2
AAPL   2002       0
BAC    2001       0
BAC    2002       2
Run Code Online (Sandbox Code Playgroud)

我想知道是否有可能计算零出现率

python group-by dataframe pandas

19
推荐指数
3
解决办法
9591
查看次数

使用h5py编写大型hdf5数据集

目前,我正在使用h5py生成hdf5数据集.我有类似的东西

import h5py
import numpy as np
my_data=np.genfromtxt("/tmp/data.csv",delimiter=",",dtype=None,names=True)

myFile="/tmp/f.hdf"    
with h5py.File(myFile,"a") as f:
  dset = f.create_dataset('%s/%s'%(vendor,dataSet),data=my_data,compression="gzip",compression_opts=9)
Run Code Online (Sandbox Code Playgroud)

这适用于相对较大的ASCII文件(400MB).我想对更大的数据集(40GB)做同样的事情.使用h5py有更好或更有效的方法吗?我想避免将整个数据集加载到内存中.

有关数据的一些信息:

  1. 我不知道数据的类型.理想情况下,我想用dtype=Nonenp.loadtxt()
  2. 我不知道文件的大小(尺寸).他们各不相同

python numpy hdf5 h5py

13
推荐指数
1
解决办法
8059
查看次数

使用不同的conda-build根目录

我正在创建自己的conda食谱,并使用git进行结帐。仓库是几场演出。~/conda-bld我不希望在in中进行检出,而是希望在in中进行检出/ssd,这样会更快。如何指定?另外,在进行克隆时如何指定git depth?

anaconda conda

5
推荐指数
1
解决办法
1319
查看次数

go中定期运行一个函数

我有这样的功能:

func run (cmd string) [] byte {
    out,err = exec.Command(cmd).Output()
    if error!=nil { 
        log.Fatal (err) 
    }
    return out
}
Run Code Online (Sandbox Code Playgroud)

我想用这种方式运行这个命令

run ("uptime") // run every 5 secs
run ("date") // run every 10 secs
Run Code Online (Sandbox Code Playgroud)

我想运行这些命令并收集它的输出并用它做一些事情.我该怎么办呢?

concurrency go

5
推荐指数
2
解决办法
2692
查看次数

按百分比将列表分区为子列表

我有一个包含值的大型列表.

我想将列表分成大小以百分比给出的子列表,如25%,10%,10%,5%,%5,...,%1%(这些应该加起来为100%),尊重大名单的大小.

似乎没有这样的功能.

python numpy

4
推荐指数
1
解决办法
3066
查看次数

熊猫将重复索引合并为单个索引

我有一个像这样的简单数据框:

d1={'a':{'1998-01-01':10}}
d2={'b':{'1998-01-01':3}}

df=pd.DataFrame.from_dict(d1)
df=df.append(pd.DataFrame.from_dict(d2))
df.index=pd.to_datetime(df.index)

             a   b
1998-01-01  10 NaN
1998-01-01 NaN   3
Run Code Online (Sandbox Code Playgroud)

我想拥有

             a   b
1998-01-01  10   3
Run Code Online (Sandbox Code Playgroud)

自1998年1月1日以来共享索引

pandas

4
推荐指数
2
解决办法
3438
查看次数

使用 h5py 强制 hdf5 文件的数据类型

我有一个 csv 文件,其中包含“日期”、“时间”和其他列(10 个左右)

Date,Time,C
20020515,123000000,10293
20020515,160000000,10287
20020516,111800000,10270
20020516,160000000,10260
20020517,130500000,10349
20020517,160000000,10276
20020520,123700000,10313
20020520,160000000,10258
20020521,114500000,10223
Run Code Online (Sandbox Code Playgroud)

我正在尝试将其加载到 hdf5 文件中,并将日期和时间类型设为“字符串”而不是 integer32。所以我正在做这个

import h5py,numpy as np
my_data = np.genfromtxt("/tmp/data.txt",delimiter=",",dtype=None,names=True)
myFile="/tmp/data.h5"
with h5py.File(myFile,"a") as f:
  dset = f.create_dataset('foo',data=my_data)
Run Code Online (Sandbox Code Playgroud)

我想在 HDF5 上将“日期”和“时间”存储为“字符串”类型。不是 Int32。

python numpy hdf5 h5py

1
推荐指数
1
解决办法
4776
查看次数

更改第一行的输出字段分隔符

我有一个这样的文件

name|age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)

我希望第一行有一个不同的分隔符“^”。

name|age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)

但我不断得到

^n^a^m^e^|^a^g^e^
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)

期望的输出是

name^age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)

awk

1
推荐指数
1
解决办法
55
查看次数

标签 统计

python ×5

numpy ×3

pandas ×3

dataframe ×2

h5py ×2

hdf5 ×2

anaconda ×1

awk ×1

concurrency ×1

conda ×1

go ×1

group-by ×1

time-series ×1