我确信有一种明显的方法可以做到这一点,但现在不能想到任何光滑的东西.
基本上,反而提高了例外,我想获得True或False以查看是否在大熊猫存在价值df指数.
import pandas as pd
df = pd.DataFrame({'test':[1,2,3,4]}, index=['a','b','c','d'])
df.loc['g'] # (should give False)
Run Code Online (Sandbox Code Playgroud)
我现在的工作如下
sum(df.index == 'g')
Run Code Online (Sandbox Code Playgroud) 我想知道你是否可以给我一个使用python阅读/写入谷歌文档/电子表格的例子.
我确实在这里查看了google docs API https://developers.google.com/google-apps/spreadsheets/但不确定我是否点击了正确的链接.另外一个例子将是非常有帮助的.
我想要做的是查询基于不同列的电子表格,更像是SQL查询,然后使用数据进行下游解析,并将其放入google docs中的另一个电子表格或doc.
最好的,-Abhi
python google-api google-sheets google-api-python-client google-sheets-api
我正在groupby从Pandas 创建一个对象,DataFrame并希望选择> 1大小的所有组.
以下似乎不起作用:
grouped[grouped.size > 1 ]
Run Code Online (Sandbox Code Playgroud)
另外,如何从分组中筛选出某些值DataFrame?例如,如何删除grouped列'name'具有值的所有行'foo'或'bar'?
受控示例:
df = pandas.DataFrame({'A': ['foo','bar','foo','foo'],
'B': range(4)})
grouped = df.groupby('A')
Run Code Online (Sandbox Code Playgroud)
groupby删除组大小<= 1的组后,我需要该对象.
我尝试了以下,但没有用:
grouped[grouped.size() > 1]
Run Code Online (Sandbox Code Playgroud)
我期望:
A
foo 0
2
3
Run Code Online (Sandbox Code Playgroud)
我不确定索引/切片如何对该grouped对象起作用.
我有4亿行独特的键值信息,我希望能够在脚本中快速查找.我想知道这样做的方式是什么.我确实考虑了以下但不确定是否有一种磁盘映射字典的方法,并且除了在字典创建期间没有使用大量内存.
如果有任何不清楚的地方,请告诉我.
谢谢!-Abhi
我们正在使用R来吐出在闪亮的应用程序(网页)上呈现的绘图(热图).目前,我们面临着一个问题,即R渲染绘图需要花费时间来进行计算.让我通过一个人为的例子来表达同样的看法.在这个基本测试用例中,R需要大约17秒的时间来渲染并将热图文件保存为png(数据计算机时间被取出:行和列集群已预先计算)
我想知道有没有办法减少渲染这种情节类型所需的时间.也许我在其他一些常量计算中缺失,这些计算也可以从热图函数中取出.
谢谢!
生成数据
m1 <- matrix(rnorm(500000,mean=15,sd=4),ncol=100)
m2 <- matrix(rnorm(500000,mean=30,sd=3),ncol=100)
m <- cbind(m1,m2)
dim(m)
Run Code Online (Sandbox Code Playgroud)
所有计算的基本热图
png('test_heatmap.png')
system.time(heatmap(m))
user system elapsed
29.327 0.637 30.526
Run Code Online (Sandbox Code Playgroud)
从热图功能中进行聚类:主要是测试绘图渲染时间
> system.time(hcr <- hclust(dist(m)))
user system elapsed
9.992 0.126 10.144
> system.time(hcc <- hclust(dist(t(m))))
user system elapsed
0.659 0.002 0.662
> system.time(ddr <- as.dendrogram(hcr))
user system elapsed
0.498 0.010 0.508
> system.time(ddc <- as.dendrogram(hcc))
user system elapsed
0.011 0.000 0.011
Run Code Online (Sandbox Code Playgroud)
热图渲染时间与预先计算的行/列树形图
png('test_heatmap.png')
> system.time(heatmap(m,Rowv=ddr,Colv=ddc))
user system elapsed
16.128 0.558 17.171
Run Code Online (Sandbox Code Playgroud) 当我学习python和这个有趣的绘图库时,我开始使用matplotlib渲染绘图.对于我正在处理的问题,我需要帮助自定义绘图.可能已经有了内置功能.
问题:我试图绘制一个表格(矩形)作为一个包含96个单独单元格(8行X 12列)的图表.使用特定颜色为每个替代单元着色(如棋盘:而不是黑/白我将使用其他颜色组合)并从pandas数据框或python字典为每个单元插入值.在侧面显示col和row标签.
示例数据:http: //pastebin.com/N4A7gWuH
我希望情节看起来像这样取代numpy/pandas ds中的单元格中的值.
示例图:http: //picpaste.com/sample-E0DZaoXk.png
感谢您的意见.
PS:在mathplotlib的邮件列表上发布了相同的内容
我正在尝试创建一个大熊猫DataFrame,它适用于单个文件.如果我需要为具有相同数据结构的多个文件构建它.因此,我有一个文件名列表,而不是单个文件名,我想从中创建DataFrame.
不知道DataFrame在pandas中附加到当前的方式是什么,或者有没有办法让pandas将文件列表吸入到DataFrame.
只是想知道是否有一种更方便的数据子集.基本上我有一张带有百万行和数百列的大桌子.我想基于整数col/s对其进行子集化,其值在我定义的范围之间.
我想知道是否将相关列设置为Key它将是二进制搜索但是不确定我是否可以找到一系列值之间的行.
下面举例说明.
> n = 1e7
> dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
> system.time(subset(dt, a > 1 & a < 2))
user system elapsed
1.596 0.000 1.596
> system.time(dt[a %between% c(1,2)])
user system elapsed
1.168 0.000 1.168
Run Code Online (Sandbox Code Playgroud)
可以这样做吗?
setkey(dt,a)
dt[ ] : get me the rows between 1 and 2 values of the key
Run Code Online (Sandbox Code Playgroud)
谢谢!-Abhi
只是想知道是否有技巧/方法可以缓存通过我们闪亮的应用程序生成的图.
背景:
我们正在做一些计算密集型计算,最终导致绘图.我已经缓存(使用memoise)完成的计算,全局闪亮,但渲染绘图仍需要大约0.75秒.我只是想知道我们是否可以通过消除渲染图像所花费的时间以及是否有光滑的方式来减少时间.
更多细节:
我正在使用网格来创建绘图(在这种情况下是热图.理想情况下,将缓存设置为基于磁盘,因为在内存中存储绘图不会扩展.
谢谢!-Abhi
我正在使用boxplot绘制非正态分布,并有兴趣使用matplotlib的boxplot函数找出异常值.
除了情节,我有兴趣找出我的代码中的点的值,这些点在箱图中显示为异常值.有没有什么办法可以从boxplot对象中提取这些值以用于我的下游代码?
python ×7
pandas ×4
r ×3
matplotlib ×2
shiny ×2
data.table ×1
dataframe ×1
google-api ×1
heatmap ×1
ipython ×1
outliers ×1
persistence ×1
render ×1
shiny-server ×1