标签: random-sample

如何获取LogicalTypes的随机值

我有一个工具,生成我需要生成一个samlpe值进行测试的实体.问题是我们有很多逻辑类型(一些相同的类型,但仍然不同)和编码我想知道是否有人有一个更容易的解决方案...

这是Enum:

public enum LogicalTypeEnum
    { 
        Identity,
        DateAndTime,
        Binary,
        Quantity,
        Comment,
        Money,
        Rate,
        TimeStamp,
        Caption,
        Reference,
        Number,
        Weight,
        Space,
        Username,
        Phone,
        Email,
        ZipCode
    }
Run Code Online (Sandbox Code Playgroud)

谢谢!!!

编辑1:我想生成一个随机值,而不是从枚举中获取一个随机元素.我正在寻找一种随机的电子邮件或邮政编码或金钱价值的方法.

c# random-sample

5
推荐指数
1
解决办法
1236
查看次数

如何在R中生成具有指定对数正态分布的随机数?

我想从对数正态分布中得到20个随机生成的数字,几何平均值为10,几何标准差为2.5.

我应该使用哪个R函数来完成此任务?

谢谢您的帮助!

r distribution random-sample

5
推荐指数
1
解决办法
1万
查看次数

使用约束来混洗列表

准备一个新的心理物理实验,我有48次原始刺激显示4次(4个条件),导致192次试验.试图在实验过程中随机化演示的顺序,我需要最大化相同原始刺激的4显示之间的距离.

请考虑 :

Table[{j, i}, {j, Range[48]}, {i, Range[4]}]
Run Code Online (Sandbox Code Playgroud)

其中j是原始刺激数和我的条件

输出样本:

 {{1, 1}, {1, 2}, {1, 3}, {1, 4}, 
  {2, 1}, {2, 2}, {2, 3}, {2, 4},   
  ...
  {47, 1}, {47, 2}, {47, 3},{47, 4}, 
  {48, 1}, {48, 2}, {48, 3}, {48, 4}}
Run Code Online (Sandbox Code Playgroud)

我怎样才能改变这192个项目的呈现顺序,最大化相同项目之间的距离j,原始刺激数量?

wolfram-mathematica random-sample

5
推荐指数
1
解决办法
304
查看次数

如何从互联网上随机抽样?

我试图获取随机的网页样本,我不想因各种原因而废弃谷歌搜索结果.以下是我尝试过的方法;

import socket
from random import randint

def doesitserveawebpage(ip):
    ip=str(ip)
    s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    try:
        s.connect((ip, 80))
        s.shutdown(2)
        return True
    except:
        return False

def givemerandomwebsite():
    adrformat = "%d.%d.%d.%d"
    while True:
        adr = adrformat % tuple(randint(0,255) for _ in range(4))
        try:
            print "Tring %s" % adr
            name = socket.gethostbyaddr(adr)
            if (doesitserveawebpage(adr)):
                return name
            else:
                continue
        except socket.herror:
            continue
Run Code Online (Sandbox Code Playgroud)

好吧,它不起作用.首先,它的工作太慢了.其次,它给了我不提供网页的地址.无论如何我可以使这个代码更好,或者你会建议另一种方法来解决这个问题?

python random-sample

5
推荐指数
1
解决办法
266
查看次数

可以用c ++中的'rand()`来生成无偏的bool吗?

我写了以下功能

bool random_bool(double probability)
{
    double p_scaled = probability * (RAND_MAX+1) - rand();
    if ( p_scaled >= 1 ) return true;
    if ( p_scaled <= 0 ) return false;
    return random_bool( p_scaled );
}
Run Code Online (Sandbox Code Playgroud)

给定,rand()从均匀分布生成一个{0,1,...,RAND_MAX-1,RAND_MAX}数字,后续调用中的数字可以被视为独立于除加密之外的所有实际目的,这应该true以概率返回p:两个if语句true以略低于概率的方式返回p,并且false概率略高于1-p,而递归调用处理其他所有事情.

但是,以下测试失败:

long long N = 10000000000; //1e10
double p = 10000.0 / N;
int counter = 0;
for (long long i=0;i<N;i++) if (random_bool(p)) counter++;
assert(9672 < counter …
Run Code Online (Sandbox Code Playgroud)

c++ random debugging random-sample

5
推荐指数
1
解决办法
413
查看次数

使用System.Random时的时间相关性(使用System.Random.TF时不存在)

这个问题涉及System.Random当从连续种子生成连续的随机数时观察到的时间相关性的起源(其中每个种子丢弃相同数量的生成器).

使用System.Random中的mkStdGen生成随机布尔值答案1使用System.Random中的mkStdGen生成随机布尔值答案2建议(基于引用其中的reddit文章)应该丢弃前几个生成器以获取明智的结果.然而,我发现不管有多少发生器丢弃,当观察分布的时间方面时,如果用连续种子生成连续的随机数(一个丢弃每个种子的相同数量的生成器),则获得不希望的结果.

我的问题是,所采用的算法是什么 System.Random 导致了所述方式中不同种子之间的时间相关性?

如果我们生成无限序列的随机布尔值,则P(n)获得n具有相同值(例如[True,True,True]in [False,True,True,True,False])的连续布尔值的概率为(1/2)^n.作为快速检查,我们有标准化条件:

P(1)+P(2)+....P(infty) = (1/2) + (1/2)^2 + ... = 1
Run Code Online (Sandbox Code Playgroud)

以下代码:

module Main where
import Data.List
import System.Random

generateNthGenerator startGen 0 = startGen
generateNthGenerator startGen n = generateNthGenerator newGen (n-1)
  where newGen = snd $ ((random startGen) :: (Bool,StdGen)) 

better_mkStdGen generation seed = 
  generateNthGenerator (mkStdGen seed) generation

randomNums generation = 
  map (fst . random . (better_mkStdGen generation)) [0 .. …
Run Code Online (Sandbox Code Playgroud)

random algorithm haskell random-sample ghc

5
推荐指数
1
解决办法
149
查看次数

如何在Splunk中有效地采样很长时间?

我想在很长一段时间内(例如,几个月或几年)运行Splunk查询,但我正在搜索足够的数据,我只能搜索数小时或数天的数据.

但是,对于我想在Splunk中回答的问题,我会对统一或统计上无偏见的数据样本感到满意.换句话说,我希望查询返回N个事件在过去一个月内展开,而不是任何N个连续事件.

我考虑的一种方法是仅搜索事件,date_minute=0以便快速过滤1/60事件,这有助于但不是非常灵活.

有没有更好的方法在Splunk中有效地采样事件?

performance time search splunk random-sample

5
推荐指数
1
解决办法
2079
查看次数

R中runif和样本之间的区别?

在他们使用的概率分布方面?我知道runif给出了小数,而样本给出了整数,但我感兴趣的是样本是否也使用"均匀概率分布"?

r random-sample

5
推荐指数
2
解决办法
7479
查看次数

从bash中的大文件中获取随机行

如何n从无法放入内存的非常大的文件中获取随机行。

如果我可以在随机化之前或之后添加过滤器也很棒。


更新 1

就我而言,规格是:

  • > 1 亿行
  • > 10GB 文件
  • 通常随机批量大小 10000-30000
  • 512RAM 托管 ubuntu 服务器 14.10

所以从文件中丢失几行不会是一个大问题,因为无论如何它们都有 1 万分之一的机会,但性能和资源消耗将是一个问题

bash command-line random-sample line-processing

5
推荐指数
2
解决办法
2831
查看次数

如何在Python中为截断的正态分布生成相关的随机数?

我正在尝试使用numpy.random.multivariate_normal()均值和协方差矩阵(根据数据计算)作为输入来生成三个变量的相关随机数。

正态分布在0和1之间被截断,因此,生成的随机数(对于所有三个变量)应该在0和1之间。但是,某些生成的随机数超出范围。

在为每个变量生成正态分布的随机数时,如何控制边界?

编辑:我可以使用分别从三个截断的正态分布中生成不相关的随机数scipy.stats.truncnorm。但是,在这里我正在寻找可以生成相关随机数的东西。

python statistics numpy random-sample scipy

5
推荐指数
1
解决办法
472
查看次数