小编dar*_*dog的帖子

我在Ubuntu 12.10上搞砸了Python Pip的系统版本

我想在我的主要Python安装上更新pip,特别是获取list命令.其中还包括列表更新功能.

所以我跑了:

sudo pip install --upgrade pip

Run Code Online (Sandbox Code Playgroud)

所有看起来都很好的安装,但后来我去运行pip得到了这个:(如果有帮助,包括安装结束)

Installing pip script to /usr/local/bin
    Installing pip-2.7 script to /usr/local/bin
Successfully installed pip
Cleaning up...
tom@tom-sam:~$ pip list -o
bash: /usr/bin/pip: No such file or directory
tom@tom-sam:~$ pip
bash: /usr/bin/pip: No such file or directory

Run Code Online (Sandbox Code Playgroud)

显然有点明显我是因为这是我的python系统安装.我在这里读了几个答案但是还没能确定最简单的修复方法.

python pip ubuntu-12.10

dar*_*dog

lucky-day

54
推荐指数

4
解决办法

7万
查看次数

将Google电子表格CSV放入Pandas Dataframe

我上传了一个文件到Google电子表格(用于制作一个公开可访问的示例IPython Notebook,带有数据)我正在使用该文件的原生形式可以读入Pandas Dataframe.所以现在我使用下面的代码来阅读电子表格,工作正常,但只是作为字符串,我没有任何运气试图让它回到数据帧(你可以得到数据)

import requests
r = requests.get('https://docs.google.com/spreadsheet/ccc?key=0Ak1ecr7i0wotdGJmTURJRnZLYlV3M2daNTRubTdwTXc&output=csv')
data = r.content

Run Code Online (Sandbox Code Playgroud)

数据最终看起来像:(第1行标题)

',City,region,Res_Comm,mkt_type,Quradate,National_exp,Alabama_exp,Sales_exp,Inventory_exp,Price_exp,Credit_exp\n0,Dothan,South_Central-Montgomery-Auburn-Wiregrass-Dothan,Residential,Rural,1/15/2010,2,2,3,2,3,3\n10,Foley,South_Mobile-Baldwin,Residential,Suburban_Urban,1/15/2010,4,4,4,4,4,3\n12,Birmingham,North_Central-Birmingham-Tuscaloosa-Anniston,Commercial,Suburban_Urban,1/15/2010,2,2,3,2,2,3\n

Run Code Online (Sandbox Code Playgroud)

引入磁盘驻留文件的本机pandas代码如下所示:

df = pd.io.parsers.read_csv('/home/tom/Dropbox/Projects/annonallanswerswithmaster1012013.csv',index_col=0,parse_dates=['Quradate'])

Run Code Online (Sandbox Code Playgroud)

一个"干净"的解决方案将有助于许多人提供一种简单的方法来共享数据集供熊猫使用!我尝试了一堆替代方案但没有成功,我很确定我再次错过了一些明显的东西.

只是一个更新说明新的Google电子表格有不同的网址格式只是在上面的例子和/或下面的答案中使用它来代替URL,你应该没问题就是一个例子:

https://docs.google.com/spreadsheets/d/177_dFZ0i-duGxLiyg6tnwNDKruAYE-_Dd8vAQziipJQ/export?format=csv&id

Run Code Online (Sandbox Code Playgroud)

从@Max Ghenis看下面的解决方案,它只使用了pd.read_csv,不需要StringIO或请求......

python google-apps google-sheets pandas google-drive-api

dar*_*dog

2018 05-08

50
推荐指数

7
解决办法

3万
查看次数

pandas使用startswith从Dataframe中选择

这工作(使用Pandas 12 dev)

table2=table[table['SUBDIVISION'] =='INVERNESS']

Run Code Online (Sandbox Code Playgroud)

然后我意识到我需要使用"开头"来选择字段因为我错过了一堆.所以按照我可以遵循的熊猫文档,我试过了

criteria = table['SUBDIVISION'].map(lambda x: x.startswith('INVERNESS'))
table2 = table[criteria]

Run Code Online (Sandbox Code Playgroud)

并得到了AttributeError:'float'对象没有属性'startswith'

所以我尝试了一种具有相同结果的替代语法

table[[x.startswith('INVERNESS') for x in table['SUBDIVISION']]]

Run Code Online (Sandbox Code Playgroud)

参考http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing 第4部分:系列的列表推导和映射方法也可用于生成更复杂的标准:

我错过了什么？

python numpy pandas

dar*_*dog

lucky-day

39
推荐指数

4
解决办法

4万
查看次数

大熊猫在一天加入一天

我需要在每个日期添加1天,以便获得下个月的开始日期,例如2014-01-2014,以获取数据框中的第1项.尝试:

montdist['date'] + pd.DateOffset(1)

Run Code Online (Sandbox Code Playgroud)

这给了我:

TypeError: cannot use a non-absolute DateOffset in datetime/timedelta operations [<DateOffset>]

Run Code Online (Sandbox Code Playgroud)

拥有一个数据帧:

    Units   mondist                date
1    6491  0.057785 2013-12-31 00:00:00
2    7377  0.065672 2014-01-31 00:00:00
3    9990  0.088934 2014-02-28 00:00:00
4   10362  0.092245 2014-03-31 00:00:00
5   11271  0.100337 2014-04-30 00:00:00
6   11637  0.103596 2014-05-31 00:00:00
7   10199  0.090794 2014-06-30 00:00:00
8   10486  0.093349 2014-07-31 00:00:00
9    9282  0.082631 2014-08-31 00:00:00
10   8632  0.076844 2014-09-30 00:00:00
11   8204  0.073034 2013-10-31 00:00:00
12   8400  0.074779 2013-11-30 00:00:00

Run Code Online (Sandbox Code Playgroud)

python pandas

dar*_*dog

lucky-day

36
推荐指数

5
解决办法

4万
查看次数

另一个分支默认？

我在Bitbucket和我的本地机器上有一个Mercurial回购,两个都是镜像,是最新的.我创建了一个功能分支,反映在两个repos中.我在功能分支中完成了所有工作.

功能分支现在已完成,我现在想把它作为主repo和我的本地副本的默认设置.我并不真正关心默认分支,已经有足够的工作进入功能分支,我想要做的就是将其指定为新的默认分支.

我不认为我想合并也不应该合并？我怎么能这样做,所以本地和远程不要混淆？

mercurial branch

dar*_*dog

2012 01-13

31
推荐指数

3
解决办法

1万
查看次数

Pandas重置系列上的索引以删除多索引

我创建了一个Seriesfrom DataFrame,当我用一个像这样的计数重新采样一些数据时:where H2是DataFrame:

H3=H2[['SOLD_PRICE']]
H5=H3.resample('Q',how='count')
H6=pd.rolling_mean(H5,4)

Run Code Online (Sandbox Code Playgroud)

这产生了一个看起来像这样的系列:

1999-03-31  SOLD_PRICE     NaN
1999-06-30  SOLD_PRICE     NaN
1999-09-30  SOLD_PRICE     NaN
1999-12-31  SOLD_PRICE    3.00
2000-03-31  SOLD_PRICE    3.00

Run Code Online (Sandbox Code Playgroud)

索引看起来像:

MultiIndex
[(1999-03-31 00:00:00, u'SOLD_PRICE'), (1999-06-30 00:00:00, u'SOLD_PRICE'), (1999-09-30 00:00:00, u'SOLD_PRICE'), (1999-12-31 00:00:00, u'SOLD_PRICE'),.....

Run Code Online (Sandbox Code Playgroud)

我不希望第二列作为索引.理想情况下,我将第DataFrame1列作为"日期",第2列作为"销售"(删除索引的第二级).我不太明白如何重新配置索引.

python pandas

dar*_*dog

2019 06-15

26
推荐指数

2
解决办法

5万
查看次数

使用Pandas在Matplotlib中设置Yaxis

使用Pandas在I-Python Notebook中绘图,我有几个图,因为Matplotlib决定Y轴,它们设置不同,我们需要使用相同的范围比较这些数据.我已经尝试了几种变体:(我假设我需要对每个情节应用限制..但因为我不能得到一个工作......从Matplotlib doc看来我似乎需要设置ylim,但是可以找不到这样做的语法.

df2250.plot(); plt.ylim((100000,500000)) <<<< if I insert the ; I get int not callable and  if I leave it out I get invalid syntax. anyhow, neither is right...
df2260.plot()
df5.plot()

Run Code Online (Sandbox Code Playgroud)

matplotlib pandas ipython-notebook

dar*_*dog

lucky-day

23
推荐指数

2
解决办法

4万
查看次数

为mariadb 10 Ubuntu 13.10安装mysqldb python接口时找不到mysql_config

在我安装Mariadb 10之后,Mysql工作台和JPDB客户端都连接并正常工作,所以下一步是用Python编程(使用SQLAlchemy),这似乎需要MySQL-python所以我去更新并得到:"mysql_config not found"I看着"通常的地方",没看到档案......

所以我按照之前关于SO的问题的一些想法并尝试安装:apt-get install libmysqlclient-dev

让我去了:以下包有未满足的依赖:libmysqlclient-dev:取决于:libmysqlclient18(= 5.5.35-0ubuntu0.13.10.2)但是要安装10.0.10 + maria-1~saucy

哪种打砖墙适合我

python mysql sqlalchemy mysql-python mariadb

dar*_*dog

2017 05-23

23
推荐指数

5
解决办法

2万
查看次数

Scikit-learn cross val得分:数组的索引太多了

我有以下代码

 from sklearn.ensemble import ExtraTreesClassifier
 from sklearn.cross_validation import cross_val_score
 #split the dataset for train and test
 combnum['is_train'] = np.random.uniform(0, 1, len(combnum)) <= .75
 train, test = combnum[combnum['is_train']==True], combnum[combnum['is_train']==False]

 et = ExtraTreesClassifier(n_estimators=200, max_depth=None, min_samples_split=10, random_state=0)
 min_samples_split=10, random_state=0  )

 labels = train[list(label_columns)].values
 tlabels = test[list(label_columns)].values

 features = train[list(columns)].values
 tfeatures = test[list(columns)].values

 et_score = cross_val_score(et, features, labels, n_jobs=-1)
 print("{0} -> ET: {1})".format(label_columns, et_score))

Run Code Online (Sandbox Code Playgroud)

检查数组的形状: