如何选择常规密度的点

我正在寻找进行随机分层抽样的最佳方法，例如调查和民意调查。我不想做 sklearn.model_selection.StratifiedShuffleSplit 因为我没有做监督学习而且我没有目标。我只想从 Pandas DataFrame ( https://www.investopedia.com/terms/stratified_random_sampling.asp )创建随机分层样本。

Python是我的主要语言。

感谢您的任何帮助

python numpy sampling pandas

asl*_*asl

2018 05-06

9
推荐指数

2
解决办法

1万
查看次数

如何等距重采样线(或曲线)？

我有一个l_1点系列给出的线p_1,...,p_n.我现在想要一个新的生产线l_2有k两点:q_1,...,q_k.但对于所有i \in {1,...,k-1}: abs( q_i - q_i+1 ) = const,意味着段l_2是等距或制服.

k >= 2
并且p_1和p_n应该在l_2.
abs( p_i - p_i+1 ) 不是常数

一种解决方案是使用样条近似一条线,然后再次对其进行二次采样,以获得均匀的长度段.我可以做得更好吗？那有什么C++代码吗？

啊,我错过了一个具体的细节:那些q_i应该在l_1,这意味着它们是在线段l_1或它们是样本点l_1.

algorithm geometry line sampling

mat*_*ath

2010 10-29

8
推荐指数

1
解决办法

5261
查看次数

每秒音频样本？

我想知道样本块与其等效时间之间的关系.鉴于我目前的粗略想法:

每秒播放的样本数=总文件大小/持续时间.

所以说,我有一个1.02MB的文件,持续时间为12秒(平均),我将每秒播放大约89,300个样本.这是正确的吗？

还有其他方法可以计算这个吗？例如,我怎么知道一个字节[1024]数组与时间相当多少？

audio sampling

use*_*792

2015 07-24

8
推荐指数

2
解决办法

2万
查看次数

来自Mongo的随机抽样

我有一个带文件的mongo集合.每个文档中都有一个字段为0或1.我需要从数据库中随机抽取1000条记录,并将具有该字段的文档数量计为1.我需要对此进行1000次抽样.我该怎么做？

database sampling mongodb

Adi*_*ngh

2017 09-23

8
推荐指数

3
解决办法

1万
查看次数

为什么随机抽样与数据集一起缩放而不是样本量？(pandas .sample()示例)

当从不同大小的分布中随机抽样时,我惊讶地发现执行时间似乎主要是根据从中采样的数据集的大小而不是被采样的值的数量来缩放.例:

import pandas as pd
import numpy as np
import time as tm

#generate a small and a large dataset
testSeriesSmall = pd.Series(np.random.randn(10000))
testSeriesLarge = pd.Series(np.random.randn(10000000))

sampleSize = 10
tStart = tm.time()
currSample = testSeriesLarge.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesLarge), (tm.time() - tStart)))

tStart = tm.time()
currSample = testSeriesSmall.sample(n=sampleSize).values
print('sample %d from %d values: %.5f s' % (sampleSize, len(testSeriesSmall), (tm.time() - tStart)))

sampleSize = 1000
tStart = tm.time()
currSample = testSeriesLarge.sample(n=sampleSize).values
print('sample %d from %d …

Run Code Online (Sandbox Code Playgroud)

python random sampling pandas

c_l*_*ton

2017 03-28

8
推荐指数

1
解决办法

627
查看次数

从 Pyro 的联合分布中采样

我了解如何从多维分类或多变量正态分布（每列内具有依赖性）进行采样。例如，对于多元分类，可以按如下方式完成：

import pyro as p
import pyro.distributions as d
import torch as t
p.sample("obs1", d.Categorical(logits=logit_pobs1).independent(1), obs=t.t(obs1))

Run Code Online (Sandbox Code Playgroud)

我的问题是，如果有多个发行版，我们该如何做同样的事情？例如，下面的不是我想要的obs1，obs2并且obs3是相互独立的。

p.sample("obs1", d.Categorical(logits=logit_pobs1).independent(1), obs=t.t(obs1))
p.sample("obs2", d.Normal(loc=mu_obs2, scale=t.ones(mu_obs2.shape)).independent(1), obs=t.t(obs2))
p.sample("obs3", d.Bernoulli(logits=logit_pobs3).independent(1),obs3)

Run Code Online (Sandbox Code Playgroud)

我想做类似的事情

p.sample("obs", d.joint(d.Bernoulli(...), d.Normal(...), d.Bernoulli(...)).independent(1),obs)

Run Code Online (Sandbox Code Playgroud)

probability bayesian sampling pytorch pyro.ai

alp*_*aca

2018 10-15

8
推荐指数

0
解决办法

881
查看次数

librosa.load() 加载（样本）mp3 文件的时间太长

我正在尝试使用该librosa库通过以下 Python 代码对 mp3 文件进行采样（将模拟转换为数字），但这需要太多时间（一个文件大约需要 4 秒）。我怀疑这是因为librosa不支持mp3，因此使用较慢audioread的采样mp3

代码：

import time
import librosa

s = time.time()
for i in mp3_list[:10]: # list of mp3 file paths, doing for 10 files
    y, sr = librosa.load(i)

print('time taken =', time.time() - s)

Run Code Online (Sandbox Code Playgroud)

time taken = 36.55561399459839

我也收到此警告：

UserWarning: "PySoundFile failed. Trying audioread instead."

Run Code Online (Sandbox Code Playgroud)

显然，这对于任何实际应用来说都太长了。我想知道是否有更好的替代方案？

为了进行比较，1.2对 10 个相同大小的wav转换进行采样只需要大约几秒钟的总时间

audio mp3 sampling python-3.x librosa

joh*_*doe

lucky-day

8
推荐指数

1
解决办法

6512
查看次数

标签统计

sampling ×10

python ×3

algorithm ×2

audio ×2

geometry ×2

pandas ×2

bayesian ×1

database ×1

dataset ×1

librosa ×1

line ×1

mongodb ×1

mp3 ×1

numpy ×1

probability ×1

pyro.ai ×1

python-2.7 ×1

python-3.x ×1

pytorch ×1

random ×1

scikit-learn ×1

selection ×1

subset ×1

tensorflow ×1

标签: sampling

自下而上的方法

性能指标

标签 统计

标签统计