我想在我的主要Python安装上更新pip,特别是获取list命令.其中还包括列表更新功能.
所以我跑了:
sudo pip install --upgrade pip
Run Code Online (Sandbox Code Playgroud)
所有看起来都很好的安装,但后来我去运行pip得到了这个:(如果有帮助,包括安装结束)
Installing pip script to /usr/local/bin
Installing pip-2.7 script to /usr/local/bin
Successfully installed pip
Cleaning up...
tom@tom-sam:~$ pip list -o
bash: /usr/bin/pip: No such file or directory
tom@tom-sam:~$ pip
bash: /usr/bin/pip: No such file or directory
Run Code Online (Sandbox Code Playgroud)
显然有点明显我是因为这是我的python系统安装.我在这里读了几个答案但是还没能确定最简单的修复方法.
我上传了一个文件到Google电子表格(用于制作一个公开可访问的示例IPython Notebook,带有数据)我正在使用该文件的原生形式可以读入Pandas Dataframe.所以现在我使用下面的代码来阅读电子表格,工作正常,但只是作为字符串,我没有任何运气试图让它回到数据帧(你可以得到数据)
import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content
Run Code Online (Sandbox Code Playgroud)
数据最终看起来像:(第1行标题)
',City,region,Res_Comm,mkt_type,Quradate,National_exp,Alabama_exp,Sales_exp,Inventory_exp,Price_exp,Credit_exp\n0,Dothan,South_Central-Montgomery-Auburn-Wiregrass-Dothan,Residential,Rural,1/15/2010,2,2,3,2,3,3\n10,Foley,South_Mobile-Baldwin,Residential,Suburban_Urban,1/15/2010,4,4,4,4,4,3\n12,Birmingham,North_Central-Birmingham-Tuscaloosa-Anniston,Commercial,Suburban_Urban,1/15/2010,2,2,3,2,2,3\n
Run Code Online (Sandbox Code Playgroud)
引入磁盘驻留文件的本机pandas代码如下所示:
df = pd.io.parsers.read_csv('/home/tom/Dropbox/Projects/annonallanswerswithmaster1012013.csv',index_col=0,parse_dates=['Quradate'])
Run Code Online (Sandbox Code Playgroud)
一个"干净"的解决方案将有助于许多人提供一种简单的方法来共享数据集供熊猫使用!我尝试了一堆替代方案但没有成功,我很确定我再次错过了一些明显的东西.
只是一个更新说明新的Google电子表格有不同的网址格式只是在上面的例子和/或下面的答案中使用它来代替URL,你应该没问题就是一个例子:
https://docs.google.com/spreadsheets/d/177_dFZ0i-duGxLiyg6tnwNDKruAYE-_Dd8vAQziipJQ/export?format=csv&id
Run Code Online (Sandbox Code Playgroud)
从@Max Ghenis看下面的解决方案,它只使用了pd.read_csv,不需要StringIO或请求......
这工作(使用Pandas 12 dev)
table2=table[table['SUBDIVISION'] =='INVERNESS']
Run Code Online (Sandbox Code Playgroud)
然后我意识到我需要使用"开头"来选择字段因为我错过了一堆.所以按照我可以遵循的熊猫文档,我试过了
criteria = table['SUBDIVISION'].map(lambda x: x.startswith('INVERNESS'))
table2 = table[criteria]
Run Code Online (Sandbox Code Playgroud)
并得到了AttributeError:'float'对象没有属性'startswith'
所以我尝试了一种具有相同结果的替代语法
table[[x.startswith('INVERNESS') for x in table['SUBDIVISION']]]
Run Code Online (Sandbox Code Playgroud)
参考http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing 第4部分:系列的列表推导和映射方法也可用于生成更复杂的标准:
我错过了什么?
我需要在每个日期添加1天,以便获得下个月的开始日期,例如2014-01-2014,以获取数据框中的第1项.尝试:
montdist['date'] + pd.DateOffset(1)
Run Code Online (Sandbox Code Playgroud)
这给了我:
TypeError: cannot use a non-absolute DateOffset in datetime/timedelta operations [<DateOffset>]
Run Code Online (Sandbox Code Playgroud)
拥有一个数据帧:
Units mondist date
1 6491 0.057785 2013-12-31 00:00:00
2 7377 0.065672 2014-01-31 00:00:00
3 9990 0.088934 2014-02-28 00:00:00
4 10362 0.092245 2014-03-31 00:00:00
5 11271 0.100337 2014-04-30 00:00:00
6 11637 0.103596 2014-05-31 00:00:00
7 10199 0.090794 2014-06-30 00:00:00
8 10486 0.093349 2014-07-31 00:00:00
9 9282 0.082631 2014-08-31 00:00:00
10 8632 0.076844 2014-09-30 00:00:00
11 8204 0.073034 2013-10-31 00:00:00
12 8400 0.074779 2013-11-30 00:00:00
Run Code Online (Sandbox Code Playgroud) 我在Bitbucket和我的本地机器上有一个Mercurial回购,两个都是镜像,是最新的.我创建了一个功能分支,反映在两个repos中.我在功能分支中完成了所有工作.
功能分支现在已完成,我现在想把它作为主repo和我的本地副本的默认设置.我并不真正关心默认分支,已经有足够的工作进入功能分支,我想要做的就是将其指定为新的默认分支.
我不认为我想合并也不应该合并?我怎么能这样做,所以本地和远程不要混淆?
我创建了一个Series
from DataFrame
,当我用一个像这样的计数重新采样一些数据时:where H2
是DataFrame
:
H3=H2[['SOLD_PRICE']]
H5=H3.resample('Q',how='count')
H6=pd.rolling_mean(H5,4)
Run Code Online (Sandbox Code Playgroud)
这产生了一个看起来像这样的系列:
1999-03-31 SOLD_PRICE NaN
1999-06-30 SOLD_PRICE NaN
1999-09-30 SOLD_PRICE NaN
1999-12-31 SOLD_PRICE 3.00
2000-03-31 SOLD_PRICE 3.00
Run Code Online (Sandbox Code Playgroud)
索引看起来像:
MultiIndex
[(1999-03-31 00:00:00, u'SOLD_PRICE'), (1999-06-30 00:00:00, u'SOLD_PRICE'), (1999-09-30 00:00:00, u'SOLD_PRICE'), (1999-12-31 00:00:00, u'SOLD_PRICE'),.....
Run Code Online (Sandbox Code Playgroud)
我不希望第二列作为索引.理想情况下,我将第DataFrame
1列作为"日期",第2列作为"销售"(删除索引的第二级).我不太明白如何重新配置索引.
使用Pandas在I-Python Notebook中绘图,我有几个图,因为Matplotlib决定Y轴,它们设置不同,我们需要使用相同的范围比较这些数据.我已经尝试了几种变体:(我假设我需要对每个情节应用限制..但因为我不能得到一个工作......从Matplotlib doc看来我似乎需要设置ylim,但是可以找不到这样做的语法.
df2250.plot(); plt.ylim((100000,500000)) <<<< if I insert the ; I get int not callable and if I leave it out I get invalid syntax. anyhow, neither is right...
df2260.plot()
df5.plot()
Run Code Online (Sandbox Code Playgroud) 在我安装Mariadb 10之后,Mysql工作台和JPDB客户端都连接并正常工作,所以下一步是用Python编程(使用SQLAlchemy),这似乎需要MySQL-python所以我去更新并得到:"mysql_config not found"I看着"通常的地方",没看到档案......
所以我按照之前关于SO的问题的一些想法 并尝试安装:apt-get install libmysqlclient-dev
让我去了:以下包有未满足的依赖:libmysqlclient-dev:取决于:libmysqlclient18(= 5.5.35-0ubuntu0.13.10.2)但是要安装10.0.10 + maria-1~saucy
哪种打砖墙适合我
我有以下代码
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.cross_validation import cross_val_score
#split the dataset for train and test
combnum['is_train'] = np.random.uniform(0, 1, len(combnum)) <= .75
train, test = combnum[combnum['is_train']==True], combnum[combnum['is_train']==False]
et = ExtraTreesClassifier(n_estimators=200, max_depth=None, min_samples_split=10, random_state=0)
min_samples_split=10, random_state=0 )
labels = train[list(label_columns)].values
tlabels = test[list(label_columns)].values
features = train[list(columns)].values
tfeatures = test[list(columns)].values
et_score = cross_val_score(et, features, labels, n_jobs=-1)
print("{0} -> ET: {1})".format(label_columns, et_score))
Run Code Online (Sandbox Code Playgroud)
检查数组的形状:
features.shape
Out[19]:(43069, 34)
Run Code Online (Sandbox Code Playgroud)
和
labels.shape
Out[20]:(43069, 1)
Run Code Online (Sandbox Code Playgroud)
我得到了:
IndexError: too many indices for array
Run Code Online (Sandbox Code Playgroud)
这个追溯的相关部分:
---> 22 et_score = …
Run Code Online (Sandbox Code Playgroud) 我一直在探索和开发Python应用程序,用于商业银行领域的关键任务工作.
银行在选择新应用方面保守.
我需要真正的稳定性证据和其他人使用.
看过Python网站,但现在我希望这群人可以告诉我更多.
到目前为止,我没有开发银行合作伙伴,我将需要下一阶段,所以我收集证据和投球信息.所有的帮助和评论赞赏.
python ×8
pandas ×6
banking ×1
branch ×1
enterprise ×1
google-apps ×1
mariadb ×1
matplotlib ×1
mercurial ×1
mysql ×1
mysql-python ×1
numpy ×1
pip ×1
scikit-learn ×1
sqlalchemy ×1
ubuntu-12.10 ×1