如何使用Pandas创建随机整数的DataFrame?

Ala*_*anH 97 python size shapes dataframe pandas

我知道,如果我使用randn,

import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)

给了我正在寻找的东西,但是有正态分布的元素.但是,如果我只想要随机整数怎么办?

randint通过提供范围来工作,但不提供类似的数组randn.那么如何在某个范围之间使用随机整数呢?

Ana*_*mar 144

numpy.random.randint接受第三个参数(size),您可以在其中指定输出数组的大小.你可以用它来创建你的DataFrame-

df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)

这里 - np.random.randint(0,100,size=(100, 4))创建一个大小的输出数组,(100,4)其中包含随机整数元素[0,100).


演示 -

import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)

产生:

     A   B   C   D
0   45  88  44  92
1   62  34   2  86
2   85  65  11  31
3   74  43  42  56
4   90  38  34  93
5    0  94  45  10
6   58  23  23  60
..  ..  ..  ..  ..
Run Code Online (Sandbox Code Playgroud)

  • 添加到优秀的解决方案中。如果您想按该顺序将列命名为除字母之外的任何名称,则应该执行 df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list(['AA' ,'BB','C2','D2'])) (2认同)
  • @mzakaria `[...]` 已经是一个列表,所以你不需要 `list([...])` (2认同)

Web*_*tor 8

现在推荐使用 NumPy 创建随机整数的方法是使用numpy.random.Generator.integers. (文档)

import numpy as np
import pandas as pd

rng = np.random.default_rng()
df = pd.DataFrame(rng.integers(0, 100, size=(100, 4)), columns=list('ABCD'))
df
----------------------
      A    B    C    D
 0   58   96   82   24
 1   21    3   35   36
 2   67   79   22   78
 3   81   65   77   94
 4   73    6   70   96
... ...  ...  ...  ...
95   76   32   28   51
96   33   68   54   77
97   76   43   57   43
98   34   64   12   57
99   81   77   32   50
100 rows × 4 columns
Run Code Online (Sandbox Code Playgroud)


cot*_*ail 5

您也可以使用np.random.Generator.choice.

\n
df = pd.DataFrame(np.random.default_rng().choice(100, size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n

这种方法的优点integers是您可以从任何您想要的列表/数组中进行选择。例如,如果您想从 生成随机样本[2, 5, 10],那么

\n
df = pd.DataFrame(np.random.default_rng().choice([2,5,10], size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n

您甚至可以将概率分布与样本条目相关联。例如,如果您想选择 2(p=0.8)和 5(p=0.2),您可以通过传递p=参数来实现。

\n
df = pd.DataFrame(np.random.default_rng().choice([2,5], p=[.8,.2], size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n
\n

此外,对于Generator,与choice一样快integers并且比 更快randint

\n
%timeit pd.DataFrame(np.random.default_rng().choice(100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 3.34 ms \xc2\xb1 308 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n\n%timeit pd.DataFrame(np.random.default_rng().integers(0, 100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 3.81 ms \xc2\xb1 708 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n\n%timeit pd.DataFrame(np.random.randint(100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 6.78 ms \xc2\xb1 776 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n
Run Code Online (Sandbox Code Playgroud)\n