如何锁定pandas数据帧结构

jab*_*jab 6 python architecture numpy dataframe pandas

简单地说,编写使用pandas数据帧作为数据表示主要方法的较大python应用程序的首选实践是什么?

我经常发现自己在努力维护数据框架中的不一致性,有时不变量会在数据中泄漏,数据类型不是您所期望的等等.

我想知道在熊猫中编写更大,更稳定的应用程序的最佳实践是什么?我希望利用数据中的数组表示来提高速度,但我还想确保有一种方法可以以干净的方式进一步定义数据框的"边界",它应该具有什么.

  • 断言从调用者接收数据帧.
  • 强制dataframe参数具有特定的dtypes.
  • 根据具有的列定义数据框"类型".
  • OOP的机会,在数据框级别

此外,对不起这个模糊的性质.我正在开始一个项目,我想在离得太远之前问这个问题.过去,我曾因为在数据帧方面没有强制执行足够的结构而被烧毁.