相关疑难解决方法(0)

numpy.ndarray vs pandas.DataFrame

我需要做出一个战略决策,选择在我的程序中保存统计数据框架的数据结构的基础.

我在一张大桌子上存储了数十万条记录.每个字段都是不同的类型,包括短字符串.我会对需要快速实时完成的数据进行多元回归分析和操作.我还需要使用一些相对受欢迎且得到很好支持的东西.

我知道以下参赛者:

清单 `array.array`

这是最基本的事情.不幸的是它不支持字符串.而且我还需要使用numpy作为统计部分,所以这个是不可能的.

`numpy.ndarray`

的ndarray具有能力以保持不同类型的数组中的每一列(例如np.dtype([('name', np.str_, 16), ('grades', np.float64, (2,))])).这似乎是一个天生的赢家,但......

`pandas.DataFrame`

这个是在考虑统计用途的情况下构建的,但它是否足够有效？

我看,那pandas.DataFrame就是不再基础上numpy.ndarray(虽然它共享相同的接口).任何人都可以对此有所了解吗？或者可能有更好的数据结构？

python numpy python-3.x pandas

Ada*_*ski

lucky-day

15
推荐指数

1
解决办法

2万
查看次数

来自pandas的DataFrame对象是否取代了异构数据类型的其他替代方案？

之前,在NumPy中有拉里和结构化/记录数组,但我想知道如果pandas包的快速发展,它们是否会以任何频率被使用.来自R,我总是不得不解压缩记录数组以修改多列中的值并将它们重新分配回结构中,但我很高兴pandas现在允许它的数据帧.我想知道是否有任何用途,哪些记录数组仍然优越(它有一些有用的方法pandas没有)？

python numpy scipy pandas

hat*_*rix

lucky-day

9
推荐指数

1
解决办法

1594
查看次数