我有这样的数据帧
d={}
d['z']=['Q8','Q8','Q7','Q9','Q9']
d['t']=['10:30','10:31','10:38','10:40','10:41']
d['qty']=[20,20,9,12,12]
Run Code Online (Sandbox Code Playgroud)
我想比较第一行和第二行
期望值是
qty t z valid
0 20 2015-06-05 10:30:00 Q8 False
1 20 2015-06-05 10:31:00 Q8 True
2 9 2015-06-05 10:38:00 Q7 False
3 12 2015-06-05 10:40:00 Q9 False
4 12 2015-06-05 10:41:00 Q9 True
Run Code Online (Sandbox Code Playgroud) 我在csv文件中有这样的数据
Symbol,Action,Year
AAPL,Buy,2001
AAPL,Buy,2001
BAC,Sell,2002
BAC,Sell,2002
Run Code Online (Sandbox Code Playgroud)
我能够像这样阅读它和groupby
df.groupby(['Symbol','Year']).count()
Run Code Online (Sandbox Code Playgroud)
我明白了
Action
Symbol Year
AAPL 2001 2
BAC 2002 2
Run Code Online (Sandbox Code Playgroud)
我希望这个(顺序无关紧要)
Action
Symbol Year
AAPL 2001 2
AAPL 2002 0
BAC 2001 0
BAC 2002 2
Run Code Online (Sandbox Code Playgroud)
我想知道是否有可能计算零出现率
目前,我正在使用h5py生成hdf5数据集.我有类似的东西
import h5py
import numpy as np
my_data=np.genfromtxt("/tmp/data.csv",delimiter=",",dtype=None,names=True)
myFile="/tmp/f.hdf"
with h5py.File(myFile,"a") as f:
dset = f.create_dataset('%s/%s'%(vendor,dataSet),data=my_data,compression="gzip",compression_opts=9)
Run Code Online (Sandbox Code Playgroud)
这适用于相对较大的ASCII文件(400MB).我想对更大的数据集(40GB)做同样的事情.使用h5py有更好或更有效的方法吗?我想避免将整个数据集加载到内存中.
有关数据的一些信息:
dtype=None从np.loadtxt()我正在创建自己的conda食谱,并使用git进行结帐。仓库是几场演出。~/conda-bld我不希望在in中进行检出,而是希望在in中进行检出/ssd,这样会更快。如何指定?另外,在进行克隆时如何指定git depth?
我有这样的功能:
func run (cmd string) [] byte {
out,err = exec.Command(cmd).Output()
if error!=nil {
log.Fatal (err)
}
return out
}
Run Code Online (Sandbox Code Playgroud)
我想用这种方式运行这个命令
run ("uptime") // run every 5 secs
run ("date") // run every 10 secs
Run Code Online (Sandbox Code Playgroud)
我想运行这些命令并收集它的输出并用它做一些事情.我该怎么办呢?
我有一个包含值的大型列表.
我想将列表分成大小以百分比给出的子列表,如25%,10%,10%,5%,%5,...,%1%(这些应该加起来为100%),尊重大名单的大小.
似乎没有这样的功能.
我有一个像这样的简单数据框:
d1={'a':{'1998-01-01':10}}
d2={'b':{'1998-01-01':3}}
df=pd.DataFrame.from_dict(d1)
df=df.append(pd.DataFrame.from_dict(d2))
df.index=pd.to_datetime(df.index)
a b
1998-01-01 10 NaN
1998-01-01 NaN 3
Run Code Online (Sandbox Code Playgroud)
我想拥有
a b
1998-01-01 10 3
Run Code Online (Sandbox Code Playgroud)
自1998年1月1日以来共享索引
我有一个 csv 文件,其中包含“日期”、“时间”和其他列(10 个左右)
Date,Time,C
20020515,123000000,10293
20020515,160000000,10287
20020516,111800000,10270
20020516,160000000,10260
20020517,130500000,10349
20020517,160000000,10276
20020520,123700000,10313
20020520,160000000,10258
20020521,114500000,10223
Run Code Online (Sandbox Code Playgroud)
我正在尝试将其加载到 hdf5 文件中,并将日期和时间类型设为“字符串”而不是 integer32。所以我正在做这个
import h5py,numpy as np
my_data = np.genfromtxt("/tmp/data.txt",delimiter=",",dtype=None,names=True)
myFile="/tmp/data.h5"
with h5py.File(myFile,"a") as f:
dset = f.create_dataset('foo',data=my_data)
Run Code Online (Sandbox Code Playgroud)
我想在 HDF5 上将“日期”和“时间”存储为“字符串”类型。不是 Int32。
我有一个这样的文件
name|age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)
我希望第一行有一个不同的分隔符“^”。
name|age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)
但我不断得到
^n^a^m^e^|^a^g^e^
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)
期望的输出是
name^age
Bob|30
Tom|50
Cindy|10
Run Code Online (Sandbox Code Playgroud)