我已经使用http://www.kevinsheppard.com/images/0/09/Python_introduction.pdf上的文档通过Anaconda安装了Python ,我的Pandas版本是0.13.1.
但是,由于我现在对这个版本有一些问题(没有可能使用DataFrame重新采样重新计算平均值),我想知道如何快速将我的版本升级到0.14.
我使用Wes McKinney的'Python for Data Analysis',但我想知道使用eclipse进行调试是否值得(即使有一些用于安装PyDev的eclipse版本的bug)以及我如何可以与anaconda一起使用它,没有任何冲突.
我在Pandas数据框中有下表:
date user_id whole_cost cost1
02/10/2012 00:00:00 1 1790 12
07/10/2012 00:00:00 1 364 15
30/01/2013 00:00:00 1 280 10
02/02/2013 00:00:00 1 259 24
05/03/2013 00:00:00 1 201 39
02/10/2012 00:00:00 3 623 1
07/12/2012 00:00:00 3 90 0
30/01/2013 00:00:00 3 312 90
02/02/2013 00:00:00 5 359 45
05/03/2013 00:00:00 5 301 34
02/02/2013 00:00:00 5 359 1
05/03/2013 00:00:00 5 801 12
..
Run Code Online (Sandbox Code Playgroud)
该表是使用以下查询从csv文件中提取的:
import pandas as pd
newnames = ['date','user_id', 'whole_cost', 'cost1']
df = pd.read_csv('expenses.csv', names …Run Code Online (Sandbox Code Playgroud) 我从一个 csv 文件中提取了下表:
时间戳 user_id 成本 val1
01/01/2011 1 1 3
01/07/2012 1 19 57
01/09/2013 1 21 63
01/02/2011 2 20 8
为此,我使用了以下语句: import pandas as pd
newnames = ['date','user_id', 'cost', 'val1']
df = pd.read_csv('expenses.csv', names = newnames, header = False)
df['timestamp'] = pd.to_datetime(df['timestamp'],format='%d%m%Y')
Run Code Online (Sandbox Code Playgroud)
但是df中得到的表日期是错误的:月和日无故排列,即01/09/2013无故变成09/01/2013。
非常感谢您的帮助。
我的mytest.csv中包含下表,如下所示:
timestamp val1 val2 user_id val3 val4 val5 val6
01/01/2011 1 100 3 5 100 3 5
01/02/2013 20 8 6 12 15 3
01/07/2012 19 57 10 9 6 6
01/11/2014 3100 49 6 12 15 3
21/12/2012 240 30 240 30
01/12/2013 63
01/12/2013 3200 51 63 50
Run Code Online (Sandbox Code Playgroud)
以上是使用以下代码获得的,在该代码中,我尝试删除所有重复项,但很遗憾,其中一些仍然存在(基于'timestamp'和'user_id'):
import pandas as pd
newnames = ['timestamp', 'val1', 'val2','val3', 'val4','val5', 'val6','user_id']
df = pd.read_csv('mytest.csv', names = newnames, header = False, parse_dates=True, dayfirst=True)
df['timestamp'] = pd.to_datetime(df['timestamp'], dayfirst=True)
df = df.loc[:,['timestamp', …Run Code Online (Sandbox Code Playgroud)