Pandas 中的索引与 dplyr 的比较

Question

我是 R/dplyr 用户，正在切换到 pandas。我注意到很多关于熊猫的书籍都非常关注索引。我还没有看到如此强烈地关注 R 数据帧上的索引。生活变得更加简单和轻松。pandas 的索引在日常数据科学任务中发挥重要作用吗？

我在网上查了一下，但找不到满意的答案。任何见解都会有益。

谢谢！

Answer 1

pandas 的索引在日常数据科学任务中发挥重要作用吗？：不必要。

我喜欢 R/dplyr 的语法，但最近不得不在 pandas 中完成大部分开发。我自己已经成功地避免了索引，没有遇到太多麻烦。事实上，我一贯使用索引的唯一操作是为stack()（类似于 tidyr::gather()）和unstack()（类似于 tidyr::spread()）函数准备输入。

通过使用reset_index()将遇到的任何索引数据转换为列，很有可能完全避免 Pandas 中的索引。几乎所有需要索引的 pandas 操作都有不需要索引的替代方法。

除此之外，我建议研究 pandas 函数“方法链”。方法链接函数（例如allocate()和query()）的构建方式与 R/tidyverse 管道函数非常相似，我相信它们主要针对列而不是索引进行操作，这并非巧合。