小编Tyl*_*ood的帖子

使用pandas选择以多个等价物为条件的行

我有一个pandas df,并想在这些方面完成一些事情(用SQL术语):

SELECT * FROM df WHERE column1 = 'a' OR column2 = 'b' OR column3 = 'c' etc.
Run Code Online (Sandbox Code Playgroud)

现在这适用于一个列/值对:

foo = df.loc[df['column']==value]
Run Code Online (Sandbox Code Playgroud)

但是,我不确定如何将其扩展为多个列/值对

python pandas

53
推荐指数
3
解决办法
11万
查看次数

计算数据框中列的摘要统计信息

我有一个以下形式的数据框(例如)

shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method
1,FALSE,0,0,MX,
2,FALSE,1,0,MX,
3,FALSE,0,0,MX,
4,FALSE,22,0,MX,
5,FALSE,0,0,MX,
6,FALSE,0,0,MX,
7,FALSE,5,0,MX,
8,FALSE,0,0,MX,
9,FALSE,4,0,MX,
10,FALSE,2,0,MX,
11,FALSE,0,0,MX,
12,FALSE,13,0,MX,
13,FALSE,0,0,CA,
14,FALSE,0,0,US,
Run Code Online (Sandbox Code Playgroud)

如何使用Pandas计算每列的摘要统计信息(列数据类型是可变的,有些列没有信息

然后返回表单的数据框:

columnname, max, min, median,

is_martian, NA, NA, FALSE
Run Code Online (Sandbox Code Playgroud)

等等

python csv profiling dataframe pandas

41
推荐指数
3
解决办法
9万
查看次数

需要一些基本的Pandas帮助 - 尝试逐行打印数据帧并对该行的特定列中的元素执行操作

基本上,我有一个查询返回一个数据帧并逐行返回我希望使用行的元素作为下一个查询的参数生成新的查询 - 该示例遍历简化版本并理解应该足够了!

>>> import pandas as pd
>>> df2 = pd.DataFrame({'a' : ['colorado', 'california', 'texas', 'oregon'], 'b' : ['go buffs', 'go bears', 'go sooners', 'go ducks'], 'c' : [14,14,15,13]})
>>> df2
            a           b   c
0    colorado    go buffs  14
1  california    go bears  14
2       texas  go sooners  15
3      oregon    go ducks  13

#Print element by element in column
>>> for x in df2['a']:
...     print x
...
colorado
california
texas
oregon

#What I want is to print …
Run Code Online (Sandbox Code Playgroud)

python pandas

5
推荐指数
1
解决办法
4455
查看次数

在一个值上对R中的数据帧进行重复数据删除,选择其他列上的任何值

想象一个df x:

name         value
tyler        1
tyler        2
jake         1
steph        3
Run Code Online (Sandbox Code Playgroud)

我想对名称上的行进行重复数据删除,但是不在乎它带有哪个“值”值,这样我得到的结果df为

name         value
tyler        [1 or 2, I dont care]
jake         1
steph        3
Run Code Online (Sandbox Code Playgroud)

我有一个唯一的标识符列,我想要不同的值,另外18个列我需要一个值。

r

4
推荐指数
1
解决办法
6690
查看次数

如何测量R/ggplot2中2条分布曲线之间的面积

具体的例子是想象x是0到10之间的一些连续变量,红线是"货物"的分布而蓝色是"坏",我想看看将这个变量合并到检查中是否有价值为了'善良',但我想首先量化蓝色>红色区域的东西数量

因为这是一个分布图,尺度看起来相同,但实际上我的样本中有98倍的好处使事情复杂化,因为它实际上并不只是测量曲线下面积,而是测量不良样本的分布情况沿着比红色更大的线.

我一直在努力学习R,但我甚至不确定如何处理这个,任何帮助赞赏. 在此输入图像描述

编辑样本数据:http: //pastebin.com/7L3Xc2KU < - 基本上是几百万行.

图表是用.创建的

graph <- qplot(sample_x, bad_is_1, data=sample_data, geom="density", color=bid_is_1)
Run Code Online (Sandbox Code Playgroud)

r ggplot2

3
推荐指数
2
解决办法
2006
查看次数

标签 统计

pandas ×3

python ×3

r ×2

csv ×1

dataframe ×1

ggplot2 ×1

profiling ×1