相关疑难解决方法(0)

如何制作好的可重复的熊猫示例

花了相当多的时间观察SO上的标签,我得到的印象是pandas问题不太可能包含可重现的数据.这是值得的R社会一直要鼓励不错,并感谢像导游这样,新人能得到放在一起,这些例子一些帮助.能够阅读这些指南并返回可重现数据的人通常会更好地获得他们问题的答案.

我们如何为pandas问题创建良好的可重复示例?简单的数据帧可以放在一起,例如:

import pandas as pd
df = pd.DataFrame({'user': ['Bob', 'Jane', 'Alice'], 
                   'income': [40000, 50000, 42000]})
Run Code Online (Sandbox Code Playgroud)

但是许多示例数据集需要更复杂的结构,例如:

  • datetime 指数或数据
  • 多个分类变量(是否等价于R的expand.grid()函数,它会产生某些给定变量的所有可能组合?)
  • MultiIndex或Panel数据

对于dput()难以使用几行代码进行模拟的数据集,是否有与R相当的R ,它允许您生成可复制粘贴的代码以重新生成数据结构?

python pandas

222
推荐指数
5
解决办法
2万
查看次数

如何查询pandas中的MultiIndex索引列值

代码示例:

In [171]: A = np.array([1.1, 1.1, 3.3, 3.3, 5.5, 6.6])

In [172]: B = np.array([111, 222, 222, 333, 333, 777])

In [173]: C = randint(10, 99, 6)

In [174]: df = pd.DataFrame(zip(A, B, C), columns=['A', 'B', 'C'])

In [175]: df.set_index(['A', 'B'], inplace=True)

In [176]: df
Out[176]: 
          C
A   B      
1.1 111  20
    222  31
3.3 222  24
    333  65
5.5 333  22
6.6 777  74 
Run Code Online (Sandbox Code Playgroud)

现在,我想要检索A值:
Q1:在范围[3.3,6.6]中 - 预期返回值:[3.3,5.5,6.6]或[3.3,3.3,5.5,6.6],如果是最后一个,则[3.3,5.5 ]或[3.3,3.3,5.5],如果没有.
Q2:在[2.0,4.0]范围内 - 预期回报值:[3.3]或[3.3,3.3]

对于任何其他MultiIndex维度也是如此,例如B值:
Q3 …

python indexing slice multi-index pandas

56
推荐指数
3
解决办法
8万
查看次数

如何使用 Pandas read_clipboard 有效加载有关 Stack Overflow 问题的数据?

我注意到 Stack Overflow 上的很多 Pandas 问题只包含几行数据作为文本,没有随附的代码来生成/重现它。我知道 的存在read_clipboard,但我无法弄清楚如何在许多情况下有效地调用此函数来读取数据,例如标题名称中存在空格或列中的列表等 Python 对象时。

如何pd.read_clipboard更有效地读取以非常规格式粘贴的数据,这些格式不适合使用默认参数轻松阅读?是否有出现短缺的情况read_clipboard

python clipboard pandas

3
推荐指数
1
解决办法
230
查看次数

使用pd.read_clipboard复制数据帧时如何处理自定义命名索引?

鉴于来自其他一些问题的数据框架:

         Constraint Name    TotalSP       Onpeak    Offpeak
Constraint_ID               
77127   aaaaaaaaaaaaaaaaaa  -2174.5     -2027.21    -147.29
98333   bbbbbbbbbbbbbbbbbb  -1180.62    -1180.62     0
1049    cccccccccccccccccc  -1036.53    -886.77     -149.76
Run Code Online (Sandbox Code Playgroud)

好像有一个索引Constraint_ID.当我尝试用它读取时pd.read_clipboard,这就是它的加载方式:

      Constraint                Name  TotalSP   Onpeak  Offpeak
0  Constraint_ID                 NaN      NaN      NaN      NaN
1          77127  aaaaaaaaaaaaaaaaaa -2174.50 -2027.21  -147.29
2          98333  bbbbbbbbbbbbbbbbbb -1180.62 -1180.62     0.00
3           1049  cccccccccccccccccc -1036.53  -886.77  -149.76
Run Code Online (Sandbox Code Playgroud)

这显然是错误的.我怎么能纠正这个?

python clipboard dataframe pandas

2
推荐指数
1
解决办法
140
查看次数

使用pd.read_clipboard指定多级列?

以下是另一个问题的一些数据:

main    Meas1     Meas2 Meas3   Meas4  Meas5
sublvl  Value     Value Value   Value   Value       
count   7.000000  1.0   1.0     582.00  97.000000       
mean    30        37.0  26.0    33.03   16.635350
Run Code Online (Sandbox Code Playgroud)

我想以这样的方式读取这些数据:第一列实际上是索引,前两行被视为多级列,其中MeasX第一级是第一级,Value是第二级.

我怎么能用这个pd.read_clipboard呢?


我的pd.read_clipboard系列:

python dataframe pandas

1
推荐指数
1
解决办法
52
查看次数

标签 统计

pandas ×5

python ×5

clipboard ×2

dataframe ×2

indexing ×1

multi-index ×1

slice ×1