为了快速测试,调试,创建可移植示例和基准测试,R可以使用大量数据集(在Base R datasets包中).该命令library(help="datasets")在将R提示描述近100年前的数据集,其中的每一个具有相关联的描述和元数据.
Python有这样的东西吗?
直到最近,还可以使用模块的功能在 Pandas 中生成示例数据帧pd.util.testing:
In [22]: import pandas as pd
In [23]: pd.util.testing.makeMixedDataFrame()
Out[23]:
A B C D
0 0.0 0.0 foo1 2009-01-01
1 1.0 1.0 foo2 2009-01-02
2 2.0 0.0 foo3 2009-01-05
3 3.0 1.0 foo4 2009-01-06
4 4.0 0.0 foo5 2009-01-07
Run Code Online (Sandbox Code Playgroud)
(有关更多示例,请参阅/sf/answers/4591454731/ )
但是,pd.util.testing正在被弃用。据我所知,这种弃用是有利于pd.testing. 它不包括用于生成样本 dfs 的任何功能(makeMixedDataFrame、makeMissingDataframe等)。
此功能是否已转移到其他模块?我看了看,但找不到其他地方。我想要一个 Pandas 附带的替代方案,不需要像 Seaborn 这样的额外依赖项,也不需要从其他地方下载数据帧。
(我本来打算在 pandas 的 Github 上提问,但他们要求所有问题首先在 SO 上提问。)