use*_*005 14 python statistics correlation pandas
我有两组温度日期,它们以常规(但不同)的时间间隔读数.我试图获得这两组数据之间的相关性.
我一直在玩熊猫试图这样做.我创造了两个时间序列,并且正在使用TimeSeriesA.corr(TimeSeriesB).但是,如果2个timeSeries中的时间不完全匹配(它们通常是秒数),我会得到Null作为答案.如果可以,我可以得到一个不错的答案:
a)在每个TimeSeries中插入/填充缺失的时间(我知道这在Pandas中是可能的,我只是不知道该怎么做)
b)从python datetime对象中剥离秒数(将秒设置为00,不更改分钟).我会失去一定程度的准确性,但不是很大
c)在Pandas中使用其他东西来获得两个timeSeries之间的相关性
d)在python中使用一些东西来获得两个浮点数列表之间的相关性,每个浮点数都有一个相应的日期时间对象,考虑到时间.
有人有什么建议吗?
Wes*_*ney 14
您有许多使用熊猫的选项,但是您必须决定如何对齐数据,因为它们不会在同一时刻发生.
在其中一个时间序列中使用"截至"时间的值,这是一个示例:
In [15]: ts
Out[15]:
2000-01-03 00:00:00 -0.722808451504
2000-01-04 00:00:00 0.0125041039477
2000-01-05 00:00:00 0.777515530539
2000-01-06 00:00:00 -0.35714026263
2000-01-07 00:00:00 -1.55213541118
2000-01-10 00:00:00 -0.508166334892
2000-01-11 00:00:00 0.58016097981
2000-01-12 00:00:00 1.50766289013
2000-01-13 00:00:00 -1.11114968643
2000-01-14 00:00:00 0.259320239297
In [16]: ts2
Out[16]:
2000-01-03 00:00:30 1.05595278907
2000-01-04 00:00:30 -0.568961755792
2000-01-05 00:00:30 0.660511172645
2000-01-06 00:00:30 -0.0327384421979
2000-01-07 00:00:30 0.158094407533
2000-01-10 00:00:30 -0.321679671377
2000-01-11 00:00:30 0.977286027619
2000-01-12 00:00:30 -0.603541295894
2000-01-13 00:00:30 1.15993249209
2000-01-14 00:00:30 -0.229379534767
Run Code Online (Sandbox Code Playgroud)
你可以看到它们关闭了30秒.该reindex功能使您可以在填充前向值时对齐数据(获取"as of"值):
In [17]: ts.reindex(ts2.index, method='pad')
Out[17]:
2000-01-03 00:00:30 -0.722808451504
2000-01-04 00:00:30 0.0125041039477
2000-01-05 00:00:30 0.777515530539
2000-01-06 00:00:30 -0.35714026263
2000-01-07 00:00:30 -1.55213541118
2000-01-10 00:00:30 -0.508166334892
2000-01-11 00:00:30 0.58016097981
2000-01-12 00:00:30 1.50766289013
2000-01-13 00:00:30 -1.11114968643
2000-01-14 00:00:30 0.259320239297
In [18]: ts2.corr(ts.reindex(ts2.index, method='pad'))
Out[18]: -0.31004148593302283
Run Code Online (Sandbox Code Playgroud)
请注意'pad'也是'ffill'的别名(但此时只在GitHub上最新版本的pandas中!).
剥离所有日期时间的秒数.最好的方法是使用rename
In [25]: ts2.rename(lambda date: date.replace(second=0))
Out[25]:
2000-01-03 00:00:00 1.05595278907
2000-01-04 00:00:00 -0.568961755792
2000-01-05 00:00:00 0.660511172645
2000-01-06 00:00:00 -0.0327384421979
2000-01-07 00:00:00 0.158094407533
2000-01-10 00:00:00 -0.321679671377
2000-01-11 00:00:00 0.977286027619
2000-01-12 00:00:00 -0.603541295894
2000-01-13 00:00:00 1.15993249209
2000-01-14 00:00:00 -0.229379534767
Run Code Online (Sandbox Code Playgroud)
请注意,如果重命名导致重复日期Exception将被抛出.
对于更高级的东西,假设您想要关联每分钟的平均值(每秒有多个观察值):
In [31]: ts_mean = ts.groupby(lambda date: date.replace(second=0)).mean()
In [32]: ts2_mean = ts2.groupby(lambda date: date.replace(second=0)).mean()
In [33]: ts_mean.corr(ts2_mean)
Out[33]: -0.31004148593302283
Run Code Online (Sandbox Code Playgroud)
如果您没有来自https://github.com/wesm/pandas的最新代码,则这些最后的代码段可能不起作用.如果.mean()对GroupBy上面的对象不起作用,请尝试.agg(np.mean)
希望这可以帮助!
| 归档时间: |
|
| 查看次数: |
16688 次 |
| 最近记录: |