我从CSV文件中加载了一些机器学习数据.前两列是观察,其余列是特征.
目前,我做以下事项:
data = pandas.read_csv('mydata.csv')
Run Code Online (Sandbox Code Playgroud)
这给出了类似的东西:
data = pandas.DataFrame(np.random.rand(10,5), columns = list('abcde'))
Run Code Online (Sandbox Code Playgroud)
我想两个dataframes切片此数据框:一个包含列a,并b和包含列一个c,d和e.
写不出类似的东西是不可能的
observations = data[:'c']
features = data['c':]
Run Code Online (Sandbox Code Playgroud)
我不确定最好的方法是什么.我需要一个pd.Panel吗?
顺便说一句,我发现数据帧索引非常不一致:data['a']是允许的,但data[0]不是.另一方面,data['a':]不允许,但是data[0:].这是否有实际原因?如果列被Int索引,这实在令人困惑data[0] != data[0:1]
我在pandas中有一个大型数据框,除了用作索引的列之外,它应该只有数值:
df = pd.DataFrame({'a': [1, 2, 3, 'bad', 5],
'b': [0.1, 0.2, 0.3, 0.4, 0.5],
'item': ['a', 'b', 'c', 'd', 'e']})
df = df.set_index('item')
Run Code Online (Sandbox Code Playgroud)
如何找到df其中包含非数字值的数据帧行?
在这个例子中它的第四行中的数据帧,它具有串'bad'在a列.如何以编程方式找到这一行?