标签: sampling

我正在尝试为Haskell中的假想行星生成随机质量.我想通过采样双模态分布(理想情况下是两个正态分布的叠加:一个对应于小行星,一个对应于气体巨行)来产生这些质量.我查看了统计软件包,它提供了quantile函数,可以将统一分布Double转换Double为多个分布.但似乎没有任何支持撰写发行版.

这个特殊情况可以通过选择一个分布或另一个分类来进行预测,但是我想用一个分发来做,特别是因为我可能需要稍后调整整体分布.最终,我可能会用天空测量中的真实数据替换正态分布.

我正在考虑自己实施拒绝抽样,它可以相当简单地处理任意分布,但它似乎效率很低,如果解决方案已经作为库存在,那么实现它肯定不是一个好主意.

是否有一个Haskell库支持从组合或显式指定的分发中进行采样？或者现有的Haskell实现拒绝采样？或者,是否存在两个正态分布之和的CDF逆的显式公式？

statistics haskell normal-distribution procedural-generation sampling

int*_*ect

lucky-day

6
推荐指数

1
解决办法

1557
查看次数

音频采样频率依赖于频道？

如果您的音频编码为44100Hz,则表示您每秒有44100个样本.对于某个频道或所有频道,这是否意味着44100个采样/秒？

例如,如果一首歌曲是立体声并且以44100Hz编码,那么两个声道都有44100个样本/秒(也就是每个声道22050个样本),或者每个声道有44100个样本(又名:每秒有88200个样本,44100个用于通道1)通道2的44100和44100.

audio frequency sampling channels

goo*_*ons

2015 07-24

6
推荐指数

2
解决办法

2383
查看次数

Visual Studio Profiler显示DLL名称而不是函数名称

我正在关注分析教程:http: //msdn.microsoft.com/en-us/magazine/cc337887.aspx

我试图通过使用CPU采样来分析项目.

MSDN结果:

MSDN分析

我的结果:

VS 2012分析

我期待看到System.Drawing.Bitmap.SetPixel而不是[System.Drawing.ni.dll].

根据这篇文章的建议,我有:

单击"显示所有代码"链接
禁用"只是我的代码"
在工具>选项>调试>符号中选中"Microsoft Symbol Serves",重新启动visual studio并再次运行报告.

输出(按照上述步骤后):

Failed to load symbols for C:\Windows\assembly\NativeImages_v2.0.50727_64\System.Drawing\8b88ae6d063a9d8ffc2f312af5d40ce5\System.Drawing.ni.dll
Loaded symbols from report for C:\Windows\Microsoft.NET\Framework64\v2.0.50727\mscorwks.dll
Loaded symbols from report for C:\Windows\WinSxS\amd64_microsoft.windows.gdiplus_6595b64144ccf1df_1.1.9200.16518_none_726fbfe0cc22f012\GdiPlus.dll
Loaded symbols from report for C:\Windows\System32\ntdll.dll
Loaded symbols from report for C:\Windows\System32\KernelBase.dll
Loaded symbols from report for C:\Windows\System32\msvcrt.dll
Failed to load symbols for C:\Windows\assembly\NativeImages_v2.0.50727_64\mscorlib\061d0414114241f4f2fe0908bf53b076\mscorlib.ni.dll
Failed to load symbols for C:\Windows\assembly\NativeImages_v2.0.50727_64\System.Windows.Forms\01a89d2c3499af1e3378797d51eec364\System.Windows.Forms.ni.dll
Loaded symbols from report for C:\Windows\System32\user32.dll
Loaded symbols from report …

Run Code Online (Sandbox Code Playgroud)

c# profiler profiling sampling visual-studio-2012

Dav*_*vid

2014 03-14

6
推荐指数

1
解决办法

4644
查看次数

从数据集中随机抽样,同时保留原始概率分布

我从测量中收集了一组> 2000个数字.我想从这个数据集中抽样,在每次测试中约10次,同时保持整体的概率分布,并在每次测试中(尽可能地扩展).例如,在每个测试中,我想要一些小值,一些中产阶级值,一些大值,其中均值和方差大致接近原始分布.结合所有测试,我还想要所有样本的总平均值和方差,大约接近原始分布.

由于我的数据集是长尾概率分布,因此每个分位数的数据量不同:

图1.约2k数据元素的密度图.

我正在使用Java,现在我正在使用统一分布,并使用数据集中的随机int,并返回该位置的数据元素:

public int getRandomData() {
    int data[] ={1231,414,222,4211,,41,203,123,432,...};
    length=data.length;
    Random r=new Random();
    int randomInt = r.nextInt(length);
    return data[randomInt];
}

Run Code Online (Sandbox Code Playgroud)

我不知道它是否按我的意愿工作,因为我按照测量的顺序使用数据,这有很大的串行相关性.

java sampling probability-density

Ho1*_*Ho1

2015 09-13

6
推荐指数

1
解决办法

624
查看次数

如何从pandas multiindex获取随机(bootstrap)样本

我正在尝试从Pandas中的多索引数据框创建一个自举样本.下面是一些生成我需要的数据的代码.

from itertools import product
import pandas as pd
import numpy as np

df = pd.DataFrame({'group1': [1, 1, 1, 2, 2, 3],
                       'group2': [13, 18, 20, 77, 109, 123],
                       'value1': [1.1, 2, 3, 4, 5, 6],
                       'value2': [7.1, 8, 9, 10, 11, 12]
                       })
df = df.set_index(['group1', 'group2'])

print df

Run Code Online (Sandbox Code Playgroud)

df数据框如下所示:

                   value1  value2
group1 group2                
1      13         1.1     7.1
       18         2.0     8.0
       20         3.0     9.0
2      77         4.0    10.0
       109        5.0    11.0
3      123        6.0    12.0

Run Code Online (Sandbox Code Playgroud)

我想从第一个索引中获取一个随机样本.例如,假设随机值np.random.randint(3,size=3)产生[3,2,2].我希望结果数据框看起来像:

                   value1 …

Run Code Online (Sandbox Code Playgroud)

python sampling multi-index pandas

Chr*_*ris

2016 08-03

6
推荐指数

1
解决办法

1141
查看次数

高斯后验过程 (Python)

我使用下面的代码创建并采样了平均值 = 0 的联合高斯先验：

\n\n

import numpy as np\nimport matplotlib.pyplot as plt \nfrom math import pi \nfrom scipy.spatial.distance import cdist\nimport scipy.stats as sts\n\nx_prior = np.linspace(-10,10,101)\nx_prior = x_prior.reshape(-1,1)\nmu = np.zeros(x_prior.shape)\n\n#defining the Kernel for the covariance function\n\ndef sec(a,b, length_scale , sigma) : \n    K = sigma * np.exp(-1/(2*length_scale) * cdist(a,b)**2)\n    return K \n\n#defining the Gaussian Process prior\n\ndef GP(a , b, mu , kernel , length_scale, sigma , samples ) :\n    f = np.random.multivariate_normal(mu.flatten(), kernel(a ,b , length_scale , sigma ) , samples)\n …

Run Code Online (Sandbox Code Playgroud)

python process machine-learning gaussian sampling

use*_*120

2021 12-16

6
推荐指数

1
解决办法

1834
查看次数

使用 pyspark 进行权重采样

我使用 PySpark 在 Spark 上有一个不平衡的数据帧。我想重新采样以使其平衡。我只在 PySpark 中找到示例函数

sample(withReplacement, fraction, seed=None)

Run Code Online (Sandbox Code Playgroud)

但我想在Python中对单位体积权重的数据帧进行采样，我可以这样做

df.sample(n,Flase,weights=log(unitvolume))

Run Code Online (Sandbox Code Playgroud)

有什么方法可以使用 PySpark 做同样的事情吗？

python sampling apache-spark pyspark

Xin*_*ang

2018 02-01

6
推荐指数

1
解决办法

6377
查看次数

通过 ID 和 R 中的某个因子分布创建一个随机子样本

我正在使用 R 并拥有以下数据集，其中包含从书中取出的句子，并包含有关书籍 ID、封面颜色（颜色）以及与相应书籍匹配的句子 ID 的数据。

My dataset
    Book ID| sentence ID| Colour      | Sentences
    1      | 1          | Blue        | Text goes here
    1      | 2          | Blue        | Text goes here
    1      | 3          | Blue        | Text goes here
    2      | 4          | Red         | Text goes here
    2      | 5          | Red         | Text goes here
    3      | 6          | Green       | Text goes here
    4      | 7          | Orange      | Text goes here
    4      | …

Run Code Online (Sandbox Code Playgroud)

random merge r subset sampling

lol*_*ily

2020 06-15

6
推荐指数

1
解决办法

148
查看次数