相关疑难解决方法(0)

如何制作好的可重复的熊猫示例

花了相当多的时间观察SO上的r和pandas标签,我得到的印象是pandas问题不太可能包含可重现的数据.这是值得的R社会一直要鼓励不错,并感谢像导游这样,新人能得到放在一起,这些例子一些帮助.能够阅读这些指南并返回可重现数据的人通常会更好地获得他们问题的答案.

我们如何为pandas问题创建良好的可重复示例？简单的数据帧可以放在一起,例如:

import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'], 
                   'income': [40000, 50000, 42000]})

Run Code Online (Sandbox Code Playgroud)

但是许多示例数据集需要更复杂的结构,例如:

datetime 指数或数据
多个分类变量(是否等价于R的expand.grid()函数,它会产生某些给定变量的所有可能组合？)
MultiIndex或Panel数据

对于dput()难以使用几行代码进行模拟的数据集,是否有与R相当的R ,它允许您生成可复制粘贴的代码以重新生成数据结构？

python pandas

Mar*_*ius

2017 05-23

222
推荐指数

5
解决办法

2万
查看次数

熊猫corr（）经常返回NaN

我试图在数据框上运行我认为应该是简单的相关函数的函数，但是它在我认为不应该的地方返回NaN。

码：

# setup
import pandas as pd
import io

csv = io.StringIO(u'''
id  date    num
A   2018-08-01  99
A   2018-08-02  50
A   2018-08-03  100
A   2018-08-04  100
A   2018-08-05  100
B   2018-07-31  500
B   2018-08-01  100
B   2018-08-02  100
B   2018-08-03  0
B   2018-08-05  100
B   2018-08-06  500
B   2018-08-07  500
B   2018-08-08  100
C   2018-08-01  100
C   2018-08-02  50
C   2018-08-03  100
C   2018-08-06  300
''')

df = pd.read_csv(csv, sep = '\t')

# Format manipulation
df = df[df['num'] …

Run Code Online (Sandbox Code Playgroud)

python statistics correlation dataframe pandas

elP*_*tor

2018 11-28

3
推荐指数

1
解决办法

2768
查看次数