我有一个pandas df,并想在这些方面完成一些事情(用SQL术语):
SELECT * FROM df WHERE column1 = 'a' OR column2 = 'b' OR column3 = 'c' etc.
Run Code Online (Sandbox Code Playgroud)
现在这适用于一个列/值对:
foo = df.loc[df['column']==value]
Run Code Online (Sandbox Code Playgroud)
但是,我不确定如何将其扩展为多个列/值对
我有一个以下形式的数据框(例如)
shopper_num,is_martian,number_of_items,count_pineapples,birth_country,tranpsortation_method
1,FALSE,0,0,MX,
2,FALSE,1,0,MX,
3,FALSE,0,0,MX,
4,FALSE,22,0,MX,
5,FALSE,0,0,MX,
6,FALSE,0,0,MX,
7,FALSE,5,0,MX,
8,FALSE,0,0,MX,
9,FALSE,4,0,MX,
10,FALSE,2,0,MX,
11,FALSE,0,0,MX,
12,FALSE,13,0,MX,
13,FALSE,0,0,CA,
14,FALSE,0,0,US,
Run Code Online (Sandbox Code Playgroud)
如何使用Pandas计算每列的摘要统计信息(列数据类型是可变的,有些列没有信息
然后返回表单的数据框:
columnname, max, min, median,
is_martian, NA, NA, FALSE
Run Code Online (Sandbox Code Playgroud)
等等
基本上,我有一个查询返回一个数据帧并逐行返回我希望使用行的元素作为下一个查询的参数生成新的查询 - 该示例遍历简化版本并理解应该足够了!
>>> import pandas as pd
>>> df2 = pd.DataFrame({'a' : ['colorado', 'california', 'texas', 'oregon'], 'b' : ['go buffs', 'go bears', 'go sooners', 'go ducks'], 'c' : [14,14,15,13]})
>>> df2
a b c
0 colorado go buffs 14
1 california go bears 14
2 texas go sooners 15
3 oregon go ducks 13
#Print element by element in column
>>> for x in df2['a']:
... print x
...
colorado
california
texas
oregon
#What I want is to print …Run Code Online (Sandbox Code Playgroud) 想象一个df x:
name value
tyler 1
tyler 2
jake 1
steph 3
Run Code Online (Sandbox Code Playgroud)
我想对名称上的行进行重复数据删除,但是不在乎它带有哪个“值”值,这样我得到的结果df为
name value
tyler [1 or 2, I dont care]
jake 1
steph 3
Run Code Online (Sandbox Code Playgroud)
我有一个唯一的标识符列,我想要不同的值,另外18个列我需要一个值。
具体的例子是想象x是0到10之间的一些连续变量,红线是"货物"的分布而蓝色是"坏",我想看看将这个变量合并到检查中是否有价值为了'善良',但我想首先量化蓝色>红色区域的东西数量
因为这是一个分布图,尺度看起来相同,但实际上我的样本中有98倍的好处使事情复杂化,因为它实际上并不只是测量曲线下面积,而是测量不良样本的分布情况沿着比红色更大的线.
我一直在努力学习R,但我甚至不确定如何处理这个,任何帮助赞赏. 
编辑样本数据:http: //pastebin.com/7L3Xc2KU < - 基本上是几百万行.
图表是用.创建的
graph <- qplot(sample_x, bad_is_1, data=sample_data, geom="density", color=bid_is_1)
Run Code Online (Sandbox Code Playgroud)