Pandas 中的索引与 dplyr 的比较

use*_*874 5 python r pandas dplyr

我是 R/dplyr 用户,正在切换到 pandas。我注意到很多关于熊猫的书籍都非常关注索引。我还没有看到如此强烈地关注 R 数据帧上的索引。生活变得更加简单和轻松。pandas 的索引在日常数据科学任务中发挥重要作用吗?

我在网上查了一下,但找不到满意的答案。任何见解都会有益。

谢谢!

cha*_*Rak 3

pandas 的索引在日常数据科学任务中发挥重要作用吗?: 不必要。

我喜欢 R/dplyr 的语法,但最近不得不在 pandas 中完成大部分开发。我自己已经成功地避免了索引,没有遇到太多麻烦。事实上,我一贯使用索引的唯一操作是为stack()(类似于 tidyr::gather())和unstack()(类似于 tidyr::spread())函数准备输入。

通过使用reset_index()将遇到的任何索引数据转换为列,很有可能完全避免 Pandas 中的索引。几乎所有需要索引的 pandas 操作都有不需要索引的替代方法。

除此之外,我建议研究 pandas 函数“方法链”。方法链接函数(例如allocate()query())的构建方式与 R/tidyverse 管道函数非常相似,我相信它们主要针对列而不是索引进行操作,这并非巧合。

这是关于方法链的很好的指南。
有趣的是,这是同一指南中关于索引的另一章。

  • 每当您使用reset_index()时,请记住添加drop=True,除非您需要旧索引作为新列 (2认同)