标签: random-sample

R - 具有预定义最小值、最大值、平均值和 sd 值的随机分布

我想用预定义的最小值、最大值、平均值和 sd 值生成 10,000 个数字的随机分布。我已经按照此链接在 rnorm 中设置上限和下限以获得具有固定最小值和最大值的随机分布。但是,这样做时,平均值会发生变化。

例如,

#Function to generate values between a lower limit and an upper limit.
mysamp <- function(n, m, s, lwr, upr, nnorm) {
set.seed(1)
samp <- rnorm(nnorm, m, s)
samp <- samp[samp >= lwr & samp <= upr]
if (length(samp) >= n) {
return(sample(samp, n))
}  
stop(simpleError("Not enough values to sample from. Try increasing nnorm."))
} 
Account_Value <- mysamp(n=10000, m=1250000, s=4500000, lwr=50000, upr=5000000, nnorm=1000000)
summary(Account_Value)

# Min. 1st Qu.  Median    Mean 3rd …
Run Code Online (Sandbox Code Playgroud)

random r random-sample

10
推荐指数
2
解决办法
8936
查看次数

生成相关数字

这是一个有趣的问题:我需要生成随机x/y对,它们与Pearson积矩相关系数或Pearson r的给定值相关.您可以将其想象为两个数组,即数组X和数组Y,其中必须重新生成,重新排序或转换数组X和数组Y的值,直到它们在给定的Pearson r级别彼此相关.这是踢球者:数组X和数组Y必须是统一的分布.

我可以用正态分布做到这一点,但转换值而不会扭曲分布让我感到难过.我尝试重新排序数组中的值以增加相关性,但我永远不会通过排序使数组在1.00或-1.00处相关.

有任何想法吗?

-

这是随机相关高斯人的AS3代码,让车轮转动:

public static function nextCorrelatedGaussians(r:Number):Array{             
         var d1:Number;
         var d2:Number;
         var n1:Number;
         var n2:Number;
         var lambda:Number;
         var r:Number;
         var arr:Array = new Array();
         var isNeg:Boolean; 

        if (r<0){
            r *= -1;
              isNeg=true;
        }            
        lambda= (   (r*r)  -  Math.sqrt(  (r*r) - (r*r*r*r)  )     )   /   ((  2*r*r ) - 1  );

        n1 = nextGaussian();
        n2 = nextGaussian();           
        d1 = n1;            
        d2 = ((lambda*n1) + ((1-lambda)*n2)) / Math.sqrt( (lambda*lambda) + (1-lambda)*(1-lambda));

        if (isNeg) {d2*= …
Run Code Online (Sandbox Code Playgroud)

java random statistics actionscript-3 random-sample

9
推荐指数
1
解决办法
3036
查看次数

如何使用Map/Reduce选择随机(小)数据样本?

我想编写一个map/reduce作业,根据行级条件从大型数据集中选择一些随机样本.我想最小化中间键的数量.

伪代码:

for each row 
  if row matches condition
    put the row.id in the bucket if the bucket is not already large enough
Run Code Online (Sandbox Code Playgroud)

你做过这样的事吗?有没有众所周知的算法?

包含连续行的样本也足够好.

谢谢.

hadoop hbase mapreduce random-sample

9
推荐指数
2
解决办法
6702
查看次数

从截断的正态分布生成有效的随机数

我想从正态分布中采样50,000个值,其中mean = 0和sd -1.但我想将值限制为[-3,3].我已编写代码来执行此操作,但不确定它是否最有效?希望得到一些建议.

lower <- -3 
upper <- 3
x_norm<-rnorm(75000,0,1)
x_norm<-x_norm[which(x_norm >=lower & x_norm<=upper)]
repeat{
    x_norm<-c(x_norm, rnorm(10000,0,1))
    x_norm<-x_norm[which(x_norm >=lower & x_norm<=upper)]
    if(length(x_norm) >= 50000){break}
}
x_norm<-x_norm[1:50000]
Run Code Online (Sandbox Code Playgroud)

r random-sample

9
推荐指数
3
解决办法
4416
查看次数

在java中生成随机日期时间(joda时间)

是否可以使用Jodatime生成随机日期时间,使得日期时间的格式为yyyy-MM-dd HH:MM:SS并且它应该能够生成两个随机日期时间,其中Date2减去Date1将大于2分钟但小于60分钟.请提出一些方法.

java random-sample jodatime

9
推荐指数
2
解决办法
2万
查看次数

pandas创建一个包含n个元素的系列(连续或randbetween)

我正在尝试创建一个pandas系列.

该系列的一列应包含n个连续数字. [1, 2, 3, ..., n]

一列应包含k和之间的随机数k+100.

一列应包含列表中字符串之间的随机选择. ['A', 'B', 'C', ... 'Z']

python series random-sample dataframe pandas

9
推荐指数
1
解决办法
3万
查看次数

Elasticsearch中的加权随机抽样

我需要从ElasticSearch指数获得了随机抽样,即发出检索来自加权概率给定索引一些文档的查询Wj/?Wi(这里Wj是行的权重j,并Wj/?Wi在此查询所有文件的权重的总和).

目前,我有以下查询:

GET products/_search?pretty=true

{"size":5,
  "query": {
    "function_score": {
      "query": {
        "bool":{
          "must": {
            "term":
              {"category_id": "5df3ab90-6e93-0133-7197-04383561729e"}
          }
        }
      },
      "functions":
        [{"random_score":{}}]
    }
  },
  "sort": [{"_score":{"order":"desc"}}]
}
Run Code Online (Sandbox Code Playgroud)

它随机返回所选类别中的5个项目.每个项目都有一个字段weight.所以,我可能不得不使用

"script_score": {
  "script": "weight = data['weight'].value / SUM; if (_score.doubleValue() > weight) {return 1;} else {return 0;}"
}
Run Code Online (Sandbox Code Playgroud)

作为描述在这里.

我有以下问题:

  • 这样做的正确方法是什么?
  • 我是否需要启用Dynamic Sc​​ripting
  • 如何计算查询的总和?

非常感谢你的帮助!

random-sample weighted elasticsearch

9
推荐指数
1
解决办法
1299
查看次数

矢量化numpy.random.multinomial

我试图矢量化以下代码:

for i in xrange(s.shape[0]):
            a[i] = np.argmax(np.random.multinomial(1,s[i,:]))
Run Code Online (Sandbox Code Playgroud)

s.shape = 400 x 100 [给定].

a.shape = 400 [预期].

s是2D矩阵,包含对的概率.期望多项式从s矩阵的每一行中抽取随机样本并将结果存储在向量a中.

python numpy vectorization random-sample

9
推荐指数
1
解决办法
941
查看次数

与mathematica相比,C++中的浮点数学变得怪异

以下帖子已经解决,问题是由于http://www.cplusplus.com/reference/random/piecewise_constant_distribution/上对公式的解释错误而引起的. 强烈建议读者考虑以下页面:http://en.cppreference .COM/W/CPP /数字/随机/ piecewise_constant_distribution

我有以下奇怪的现象让我感到困惑!:

给定的分段常数概率密度

using RandomGenType = std::mt19937_64;
RandomGenType gen(51651651651);

using PREC = long double;
std::array<PREC,5> intervals {0.59, 0.7, 0.85, 1, 1.18};
std::array<PREC,4> weights {1.36814, 1.99139, 0.29116, 0.039562};

 // integral over the pdf to normalize:
PREC normalization =0;
for(unsigned int i=0;i<4;i++){
    normalization += weights[i]*(intervals[i+1]-intervals[i]);
}
std::cout << std::setprecision(30) << "Normalization: " << normalization << std::endl;
// normalize all weights (such that the integral gives 1)!
for(auto & w : weights){
    w /= …
Run Code Online (Sandbox Code Playgroud)

c++ random wolfram-mathematica random-sample c++11

8
推荐指数
1
解决办法
355
查看次数

带有组的SQL随机样本

我有一个大学毕业生数据库,想要提取大约1000条记录的随机数据样本.

我想确保样本代表人口,所以希望包括相同比例的课程,例如

在此输入图像描述

我可以使用以下方法执行此操作:

select top 500 id from degree where coursecode = 1 order by newid()
union
select top 300 id from degree where coursecode = 2 order by newid()
union
select top 200 id from degree where coursecode = 3 order by newid()
Run Code Online (Sandbox Code Playgroud)

但是我们有数百个课程代码,所以这将耗费时间,我希望能够将这些代码重用于不同的样本大小,并且不特别想要通过查询和硬编码样本大小.

任何帮助将不胜感激

sql sql-server sample random-sample

8
推荐指数
1
解决办法
9432
查看次数