小编Abh*_*bhi的帖子

检查pandas dataframe index中是否存在值

我确信有一种明显的方法可以做到这一点,但现在不能想到任何光滑的东西.

基本上,反而提高了例外,我想获得True或False以查看是否在大熊猫存在价值df指数.

import pandas as pd
df = pd.DataFrame({'test':[1,2,3,4]}, index=['a','b','c','d'])
df.loc['g']  # (should give False)

Run Code Online (Sandbox Code Playgroud)

我现在的工作如下

sum(df.index == 'g')

Run Code Online (Sandbox Code Playgroud)

python ipython pandas

Abh*_*bhi

2019 03-31

120
推荐指数

3
解决办法

15万
查看次数

如何使用Python访问(读取,写入)Google表格电子表格？

我想知道你是否可以给我一个使用python阅读/写入谷歌文档/电子表格的例子.

我确实在这里查看了google docs API https://developers.google.com/google-apps/spreadsheets/但不确定我是否点击了正确的链接.另外一个例子将是非常有帮助的.

我想要做的是查询基于不同列的电子表格,更像是SQL查询,然后使用数据进行下游解析,并将其放入google docs中的另一个电子表格或doc.

最好的,-Abhi

python google-api google-sheets google-api-python-client google-sheets-api

Abh*_*bhi

2018 11-05

68
推荐指数

6
解决办法

10万
查看次数

过滤pandas中的分组df

我正在groupby从Pandas 创建一个对象,DataFrame并希望选择> 1大小的所有组.

以下似乎不起作用:

grouped[grouped.size > 1 ]

Run Code Online (Sandbox Code Playgroud)

另外,如何从分组中筛选出某些值DataFrame？例如,如何删除grouped列'name'具有值的所有行'foo'或'bar'？

受控示例:

df = pandas.DataFrame({'A': ['foo','bar','foo','foo'],
                       'B': range(4)})
grouped = df.groupby('A')

Run Code Online (Sandbox Code Playgroud)

groupby删除组大小<= 1的组后,我需要该对象.

我尝试了以下,但没有用:

grouped[grouped.size() > 1]

Run Code Online (Sandbox Code Playgroud)

我期望:

A
foo 0
    2
    3

Run Code Online (Sandbox Code Playgroud)

我不确定索引/切片如何对该grouped对象起作用.

python pandas

Abh*_*bhi

2015 03-11

39
推荐指数

3
解决办法

2万
查看次数

具有持久性存储的大型python字典,可快速查找

我有4亿行独特的键值信息,我希望能够在脚本中快速查找.我想知道这样做的方式是什么.我确实考虑了以下但不确定是否有一种磁盘映射字典的方法,并且除了在字典创建期间没有使用大量内存.

腌制字典对象:不确定这是否是我的问题的最佳解决方案
NoSQL类型dbases:理想情况下需要对第三方内容具有最小依赖性的东西加上键值只是数字.如果你觉得这仍然是最好的选择,我也想听听.可能它会说服我.

如果有任何不清楚的地方,请告诉我.

谢谢!-Abhi

python persistence object-persistence

Abh*_*bhi

2012 08-07

22
推荐指数

4
解决办法

8757
查看次数

如何使R渲染图更快

我们正在使用R来吐出在闪亮的应用程序(网页)上呈现的绘图(热图).目前,我们面临着一个问题,即R渲染绘图需要花费时间来进行计算.让我通过一个人为的例子来表达同样的看法.在这个基本测试用例中,R需要大约17秒的时间来渲染并将热图文件保存为png(数据计算机时间被取出:行和列集群已预先计算)

我想知道有没有办法减少渲染这种情节类型所需的时间.也许我在其他一些常量计算中缺失,这些计算也可以从热图函数中取出.

谢谢!

生成数据

m1 <- matrix(rnorm(500000,mean=15,sd=4),ncol=100)
m2 <- matrix(rnorm(500000,mean=30,sd=3),ncol=100)
m <- cbind(m1,m2)
dim(m)

Run Code Online (Sandbox Code Playgroud)

所有计算的基本热图

png('test_heatmap.png')
system.time(heatmap(m))

user  system elapsed 
29.327   0.637  30.526

Run Code Online (Sandbox Code Playgroud)

从热图功能中进行聚类:主要是测试绘图渲染时间

> system.time(hcr <- hclust(dist(m)))
   user  system elapsed 
  9.992   0.126  10.144 
> system.time(hcc <- hclust(dist(t(m))))
   user  system elapsed 
  0.659   0.002   0.662 
> system.time(ddr <- as.dendrogram(hcr))
   user  system elapsed 
  0.498   0.010   0.508 
> system.time(ddc <- as.dendrogram(hcc))
   user  system elapsed 
  0.011   0.000   0.011

Run Code Online (Sandbox Code Playgroud)

热图渲染时间与预先计算的行/列树形图

png('test_heatmap.png')
> system.time(heatmap(m,Rowv=ddr,Colv=ddc))
   user  system elapsed 
 16.128   0.558  17.171

Run Code Online (Sandbox Code Playgroud)

r render time-complexity heatmap shiny

Abh*_*bhi

2014 09-24

16
推荐指数

1
解决办法

1725
查看次数

自定义matplotlib图:棋盘像彩色单元格的表

当我学习python和这个有趣的绘图库时,我开始使用matplotlib渲染绘图.对于我正在处理的问题,我需要帮助自定义绘图.可能已经有了内置功能.

问题:我试图绘制一个表格(矩形)作为一个包含96个单独单元格(8行X 12列)的图表.使用特定颜色为每个替代单元着色(如棋盘:而不是黑/白我将使用其他颜色组合)并从pandas数据框或python字典为每个单元插入值.在侧面显示col和row标签.

示例数据:http: //pastebin.com/N4A7gWuH

我希望情节看起来像这样取代numpy/pandas ds中的单元格中的值.

示例图:http: //picpaste.com/sample-E0DZaoXk.png

感谢您的意见.

PS:在mathplotlib的邮件列表上发布了相同的内容

python matplotlib pandas

Abh*_*bhi

2017 01-05

13
推荐指数

1
解决办法

2万
查看次数

从多个文件创建pandas数据框

我正在尝试创建一个大熊猫DataFrame,它适用于单个文件.如果我需要为具有相同数据结构的多个文件构建它.因此,我有一个文件名列表,而不是单个文件名,我想从中创建DataFrame.

不知道DataFrame在pandas中附加到当前的方式是什么,或者有没有办法让pandas将文件列表吸入到DataFrame.

python pandas

Abh*_*bhi

2017 01-05

13
推荐指数

1
解决办法

2万
查看次数

R:基于整数列的data.table子集

只是想知道是否有一种更方便的数据子集.基本上我有一张带有百万行和数百列的大桌子.我想基于整数col/s对其进行子集化,其值在我定义的范围之间.

我想知道是否将相关列设置为Key它将是二进制搜索但是不确定我是否可以找到一系列值之间的行.

下面举例说明.

> n = 1e7
> dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
> system.time(subset(dt, a > 1 & a < 2))
   user  system elapsed 
  1.596   0.000   1.596
> system.time(dt[a %between% c(1,2)])
   user  system elapsed 
  1.168   0.000   1.168

Run Code Online (Sandbox Code Playgroud)

可以这样做吗？

setkey(dt,a)
dt[  ] : get me the rows between 1 and 2 values of the key

Run Code Online (Sandbox Code Playgroud)

谢谢!-Abhi

r dataframe data.table

Abh*_*bhi

2013 12-17

10
推荐指数

4
解决办法

1452
查看次数

在R/Shiny中缓存情节

只是想知道是否有技巧/方法可以缓存通过我们闪亮的应用程序生成的图.

背景:

我们正在做一些计算密集型计算,最终导致绘图.我已经缓存(使用memoise)完成的计算,全局闪亮,但渲染绘图仍需要大约0.75秒.我只是想知道我们是否可以通过消除渲染图像所花费的时间以及是否有光滑的方式来减少时间.

更多细节:

我正在使用网格来创建绘图(在这种情况下是热图.理想情况下,将缓存设置为基于磁盘,因为在内存中存储绘图不会扩展.

谢谢!-Abhi

r shiny shiny-server

Abh*_*bhi

2014 06-13

10
推荐指数

2
解决办法

1907
查看次数

从matplotlib找到异常点:boxplot

我正在使用boxplot绘制非正态分布,并有兴趣使用matplotlib的boxplot函数找出异常值.

除了情节,我有兴趣找出我的代码中的点的值,这些点在箱图中显示为异常值.有没有什么办法可以从boxplot对象中提取这些值以用于我的下游代码？

python matplotlib outliers

Abh*_*bhi

2012 04-20

9
推荐指数

1
解决办法

7808
查看次数

标签统计

python ×7

pandas ×4

r ×3

matplotlib ×2

shiny ×2

data.table ×1

dataframe ×1

google-api ×1

google-api-python-client ×1

google-sheets ×1

google-sheets-api ×1

heatmap ×1

ipython ×1

object-persistence ×1

outliers ×1

persistence ×1

render ×1

shiny-server ×1

time-complexity ×1

标签 统计

小编Abh_bhi的帖子

标签统计