我想开始学习制作数据可视化(作为我的博士学位的侧面项目),最好是使用D3.js包.我没有java经验,但我确实有OOP的背景,因为我主要工作python.因此,我想知道什么是学习使用d3的最佳方式,以及可以推荐我的环境.
如何在我的计算机上使用我的字体库中的任何类型的字体(例如*otf或者*ttf)matplotlib?
我正在hdf = pandas.HDFStore('Survey.h5')通过pandas包处理从h5文件加载的调查数据.在此范围内DataFrame,所有行都是单个调查的结果,而列是单个调查中所有问题的答案.
我的目标是将此数据集缩小到一个较小的数据集,DataFrame仅包括某个问题上具有特定描述答案的行,即此列中的所有相同值.我能够确定具有此条件的所有行的索引值,但我找不到如何删除此行或仅使用这些行创建新的df.
我有一个排名第一的numpy.array,我想制作一个盒子图.但是,我想在数组中排除所有等于零的值......目前,我通过循环数组并将值复制到新数组(如果不等于零)来解决此问题.但是,由于数组包含86 000 000个值,而且我必须多次执行此操作,因此需要很大的耐心.
有更聪明的方法吗?
我正在尝试将一个普通的matplotlib.pyplot plt.plot(x,y)与变量结合起来作为变量y的函数和xboxplot.但是,我只想在某些(可变)位置上使用boxplot,x但这似乎在matplotlib中不起作用?
我如何只能绘制MaskedArray的非遮罩值?我认为这会自动发生,boxplot(ma)但这似乎是封装非掩码数组.
我的问题很简单,只要标题:我想用R的ggplot2,但我所有的数据处理在完成的Python:有一个Python的API ggplot2,或者用一种简单的方式ggplot2通过Python?
我创建了一个facet_grid包含多个变量的箱线图。举个例子,该图可以通过以下虚拟数据重现
require(ggplot2)
require(plyr)
library(reshape2)
set.seed(1234)
x<- rnorm(100)
y.1<-rnorm(100)
y.2<-rnorm(100)
y.3<-rnorm(100)
y.4<-rnorm(100)
df<- (as.data.frame(cbind(x,y.1,y.2,y.3,y.4)))
dfmelt<-melt(df, measure.vars = 2:5)
Run Code Online (Sandbox Code Playgroud)
并将结果图创建为
dfmelt$bin <- factor(round_any(dfmelt$x,0.5))
ggplot(dfmelt, aes(x=bin, y=value, fill=variable))+
geom_boxplot()+
facet_grid(.~bin, scales="free")+
labs(x="X (binned)")+
theme(axis.text.x=element_blank())
Run Code Online (Sandbox Code Playgroud)
这给出了以下结果:

但是,我想重新定义箱线图晶须,使它们不代表 0.25 - 1.5 IQR / 0.75 + IQR 和异常值,而是 (i) 完整的第 5 个和第 95 个百分位数或 (ii) 数据的无穷大和最高。