为什么pandas会区分a Series
和单列DataFrame
?
换句话说:Series
班级存在的原因是什么?
我主要使用日期时间索引的时间序列,这可能有助于设置上下文.
Pyt*_*Nut 169
引用熊猫文档
大熊猫.DataFrame(data = None,index = None,columns = None,dtype = None,copy = False)
具有标记轴(行和列)的二维大小可变,可能异构的表格数据结构.算术运算在行标签和列标签上对齐. 可以被认为是Series对象的类似dict的容器.主要的pandas数据结构
(强调我的,句子片段不是我的)
因此,系列是a的单列的数据结构pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
,不仅在概念上,而且在字面上,即a中的数据DataFrame
实际上作为集合存储在内存中DataFrame
.
类似地:我们需要列表和矩阵,因为矩阵是用列表构建的.单行matricies虽然相当于功能中的列表,但如果没有它们组成的列表,它们仍然不存在.
它们都具有非常相似的API,但您会发现这些Series
方法始终满足您拥有多个列的可能性.当然,你总是可以在a中添加另一个DataFrame
(或等效对象)Series
,而DataFrame
在另一个中添加另一个则Series
需要创建一个Series
.
Ume*_*hik 14
来自pandas doc http://pandas.pydata.org/pandas-docs/stable/dsintro.html Series是一个一维标记的数组,能够保存任何数据类型.以熊猫系列形式阅读数据:
import pandas as pd
ds = pd.Series(data, index=index)
Run Code Online (Sandbox Code Playgroud)
DataFrame是一个二维标记数据结构,具有可能不同类型的列.
import pandas as pd
df = pd.DataFrame(data, index=index)
Run Code Online (Sandbox Code Playgroud)
在上面的两个索引都是列表
例如:我有一个包含以下数据的csv文件:
,country,popuplation,area,capital
BR,Brazil,10210,12015,Brasile
RU,Russia,1025,457,Moscow
IN,India,10458,457787,New Delhi
Run Code Online (Sandbox Code Playgroud)
要将上述数据作为系列和数据框读取:
import pandas as pd
file_data = pd.read_csv("file_path", index_col=0)
d = pd.Series(file_data.country, index=['BR','RU','IN'] or index = file_data.index)
Run Code Online (Sandbox Code Playgroud)
输出:
>>> d
BR Brazil
RU Russia
IN India
df = pd.DataFrame(file_data.area, index=['BR','RU','IN'] or index = file_data.index )
Run Code Online (Sandbox Code Playgroud)
输出:
>>> df
area
BR 12015
RU 457
IN 457787
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
83239 次 |
最近记录: |