如何从 RAND 函数(或其他地方)获得令人满意的随机数?

Rob*_*gie 3 sql-server-2005 sql-server random sql-server-2014

我正在为应用程序用户创建一个伪随机数据集进行训练。

我很惊讶,如果我用 1、2、3 等为 RAND() 函数设置种子,我从种子函数中得到几乎相同的结果。但是,当未提供种子时,这似乎是“适当随机”但可重复的值。

SELECT   RAND(1) AS R1A, RAND() AS R1B, RAND(2) AS R2A, RAND() AS R2B,
         RAND(3) AS R3A, RAND() AS R3B, RAND(4) AS R4A, RAND() AS R4B

0.713591993212924

0.472241415009636  

0.713610626184182  

0.217821139260039  

0.71362925915544  

0.963400850719992  

0.713647892126698  

0.708980575436056
Run Code Online (Sandbox Code Playgroud)

乍一看,我似乎可以评估 RAND(@seed) 并丢弃结果,然后评估 RAND() 以获得我的训练数据的几个真正“随机”的数字 - 到目前为止,我计划每条记录使用四个;我可能还需要一些。

那个计划能正常运作吗?而且,我在看什么,在这里?而且,它应该在文档中吗?我还没找到

文档说明了这一点,这可能是一个线索:

RAND 函数是一个伪随机数生成器,其运行方式类似于 C 运行时库 rand 函数。如果没有提供种子,系统会生成自己的可变种子编号。

C 中的 rand 函数是否为相似的种子输入产生相似的输出?

我认为文档还可以更清楚地说明 RAND(@number) 后跟 RAND() 总是生成相同的数字。但这就是我想要的,也是任何有经验的计算机程序员都会期望的。

我想我可以用从https://www.random.org/获得的随机数据键来填充表格以 用于此目的 - 但这有缺点。

更新,临时结论

我对 RAND() 有以下结论,现在我想我会继续下去,但要记住替代方案。

RAND(@int) 使用给定的整数值设置随机数生成器的种子,并返回一个在统计上独立的浮点结果,因为 RAND(@int) 和 RAND(@int+1) 产生的结果几乎完全相同结果。

当然,RAND(@int) 总是产生相同的结果。

RAND(-@int) 和 RAND(@int) 产生相同的结果。

RAND(0) 是一个例外:可能还有其他例外。RAND(0) 总是产生结果 0.943597390424144,但它与 RAND(1) 的结果不同。

在 RAND(@int) 之后调用 N 次 RAND() 总是产生相同的 n 个数字。如果我们称第 n 个数字为“rand(@int, @n)”——

CREATE PROCEDURE sproc_rand(@seed int, @nth int, @rand float OUTPUT) AS
SET @rand = RAND(@seed);
WHILE ( @nth > 0 ) BEGIN SET @rand = RAND(); SET @nth = @nth - 1; END
Run Code Online (Sandbox Code Playgroud)

rand(@int, @n) 和 rand(@int+1, @n) "modulo 1" 的区别——

(1.0 + rand(@int, @n) - rand(@int+1, @n) % 1
Run Code Online (Sandbox Code Playgroud)

是常数或接近常数;对于@n = 1,它大约是 0.75。对于@n = 5,它是 0.991。对于@n = 6,它是 0.91。对于@n = 100,它是 0.83。

所以,不,当使用简单的递增种子时,这些不是好的“随机”数字 - 尽管它们在 @n IN (1, 2, 3, 4) 中反弹得很好。

我现在考虑的缓解措施不是使用 RAND(row_id) 但是,

RAND(row_id * @factor_1 + @factor_2)
Run Code Online (Sandbox Code Playgroud)

其中@factor1 和@factor2 是常数项,@factor_1 约为 10,000。对于不同的项目,不同的因素。

到目前为止,如果我想要可重复的结果,另一种可用的方法(除了乘法逆的东西,我还没有完全理解)是创建一个表并用其他方法之一的非重复随机数填充它,然后在需要时从该表中绘制数字。

Bra*_*adC 5

到的唯一原因,曾经提供了一个“种子”RAND()是,如果你想要的(伪)随机值的测试目的完全相同的序列。

只需在没有种子的情况下调用它,这对于大多数用途来说应该足够了。

如果您确实需要一个可预测的序列,并且您只是对起始(随机)值不满意,则将RAND()种子从 -2,147,483,648 一直到 2,147,483,647(整数范围),所以尝试一些相差超过 1 的种子或 2。

最后,如果您使用的是 SQL 2008 或更好的版本,您还可以选择考虑CRYPT_GEN_RANDOM(警告,它返回一个 varbinary,而不是一个浮点数,因此您可能需要稍微更改您的代码):看这个文章进行一些分歧和讨论