在 Google Colab 中使用 plotly 绘制超过 600 万行的数据集

Jos*_*vez 5 python plotly google-colaboratory

让我先给你一些背景。我能够导入 kaggle 比赛(m5 精度)的整个数据并且效果非常好。问题是,当我尝试使用 plotly(没有聚合)做直方图时,不会返回任何内容。但是当我使用 Sample 时,它​​会正确绘制。

一些额外的信息:

  • 我为 google colab 使用了 plotly 的渲染器。
  • 数据帧中的行数为 56M,我的样本为 10M。
  • 我运行了 matplotlib 和 seaborn 直方图,并根据所有数据成功显示了直方图。
  • 我尝试使用 6M 的较小数据帧运行直方图。发生了同样的情况,但我能够用 2M 样本进行绘图。
  • 我尝试了一个带有来自 seaborn 的提示数据框的直方图,并正确绘制了直方图。
  • 创建基于聚合的图形时,它可以完美运行。

这是我的代码的链接。https://colab.research.google.com/drive/1uMU3ctDzkGObYeCfxF36hURT9WIvnrl7?usp=sharing

我知道这不是进行良好设计分析的限制,但我想知道是否可以使用所有可用数据以及造成此问题的原因。谢谢你阅读我。

Kor*_*ich 1

这里已经是一个问题了

解决方案是先进行聚合,例如collections.Counter()。然后绘制条形图。