Ala*_*anH 97 python size shapes dataframe pandas
我知道,如果我使用randn
,
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(100, 4), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)
给了我正在寻找的东西,但是有正态分布的元素.但是,如果我只想要随机整数怎么办?
randint
通过提供范围来工作,但不提供类似的数组randn
.那么如何在某个范围之间使用随机整数呢?
Ana*_*mar 144
numpy.random.randint
接受第三个参数(size
),您可以在其中指定输出数组的大小.你可以用它来创建你的DataFrame
-
df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)
这里 - np.random.randint(0,100,size=(100, 4))
创建一个大小的输出数组,(100,4)
其中包含随机整数元素[0,100)
.
演示 -
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
Run Code Online (Sandbox Code Playgroud)
产生:
A B C D
0 45 88 44 92
1 62 34 2 86
2 85 65 11 31
3 74 43 42 56
4 90 38 34 93
5 0 94 45 10
6 58 23 23 60
.. .. .. .. ..
Run Code Online (Sandbox Code Playgroud)
现在推荐使用 NumPy 创建随机整数的方法是使用numpy.random.Generator.integers
. (文档)
import numpy as np
import pandas as pd
rng = np.random.default_rng()
df = pd.DataFrame(rng.integers(0, 100, size=(100, 4)), columns=list('ABCD'))
df
----------------------
A B C D
0 58 96 82 24
1 21 3 35 36
2 67 79 22 78
3 81 65 77 94
4 73 6 70 96
... ... ... ... ...
95 76 32 28 51
96 33 68 54 77
97 76 43 57 43
98 34 64 12 57
99 81 77 32 50
100 rows × 4 columns
Run Code Online (Sandbox Code Playgroud)
您也可以使用np.random.Generator.choice
.
df = pd.DataFrame(np.random.default_rng().choice(100, size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n这种方法的优点integers
是您可以从任何您想要的列表/数组中进行选择。例如,如果您想从 生成随机样本[2, 5, 10]
,那么
df = pd.DataFrame(np.random.default_rng().choice([2,5,10], size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n您甚至可以将概率分布与样本条目相关联。例如,如果您想选择 2(p=0.8)和 5(p=0.2),您可以通过传递p=
参数来实现。
df = pd.DataFrame(np.random.default_rng().choice([2,5], p=[.8,.2], size=(100, 4)), columns=[\'A\',\'B\',\'C\',\'D\'])\n
Run Code Online (Sandbox Code Playgroud)\n此外,对于Generator
,与choice
一样快integers
并且比 更快randint
。
%timeit pd.DataFrame(np.random.default_rng().choice(100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 3.34 ms \xc2\xb1 308 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n\n%timeit pd.DataFrame(np.random.default_rng().integers(0, 100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 3.81 ms \xc2\xb1 708 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n\n%timeit pd.DataFrame(np.random.randint(100, size=(100_000,4)), columns=[*\'ABCD\'])\n# 6.78 ms \xc2\xb1 776 \xc2\xb5s per loop (mean \xc2\xb1 std. dev. of 7 runs, 100 loops each)\n
Run Code Online (Sandbox Code Playgroud)\n