标签: sampling

R 中没有 FPC 的调查加权回归

我使用 R 中的 svydesign 包来运行调查加权 logit 回归，如下所示：

sdobj <- svydesign(id = ~0, weights = ~chweight, strata = ~strata, data = svdat)

model1 <- svyglm(formula=formula1,design=sdobj,family = quasibinomial)

Run Code Online (Sandbox Code Playgroud)

但是，该文档对未指定有限总体修正 (FPC) 的回归提出了警告：

    If fpc is not specified then sampling is assumed to be
with replacement at the top level and only the first stage of
 cluster is used in computing variances.

Run Code Online (Sandbox Code Playgroud)

不幸的是，我没有足够的信息来指定每个级别的人口（我对其中的抽样很少）。任何关于如何在没有 FPC 信息的情况下指定调查权重的信息都会非常有帮助。

regression r survey sampling

mik*_*ike

lucky-day

4
推荐指数

1
解决办法

569
查看次数

我试图了解低通滤波器和采样频率之间的关系。假设我有一个采样频率（采样率为 500Hz）的信号数据，该数据代表一个（0-200Hz）频率的信号。我试图摆脱超过 50Hz 的频率（从 50-200Hz 移除部分）。在巴特沃斯滤波器中，他们谈论的是采样频率。频带公式基于采样频率，如 f_cut/f_sampling。这些都与采样频率有关，尽管我需要去除与信号具有的物理频率有关的额外噪声。它是如何工作的？

filtering signal-processing frequency sampling lowpass-filter

use*_*178

2017 11-29

4
推荐指数

1
解决办法

2万
查看次数

在控制比例的同时从 data.frame 采样[分层采样]

我有以下数据集

id1<-c(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20)
status<-c(1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2)
df<-data.frame(id1,status)

Run Code Online (Sandbox Code Playgroud)

在df我的观察中 40%status是“2”。我正在寻找一个函数来提取 10 个观察的样本，df同时保持上述比例。

我已经看到R 中数据帧的分层随机抽样，但它不是在谈论比例。

r sampling

Ali*_*vil

2017 05-23

4
推荐指数

1
解决办法

1747
查看次数

在python中计算thd

我正在尝试计算所提供的交流电压的总谐波失真值。我使用 Arduino 以超过 8 KHz 的速率采样电压数据，并将这些数据存储到文本文件中。然后我尝试使用以下用 python 编写的代码片段来计算 thd：

    import numpy as np
    import scipy.fftpack
    from scipy.fftpack import fft
    from numpy import genfromtxt

    sampled_data = genfromtxt('/../file.txt',delimiter=',')
    abs_yf=np.abs(fft(sampled_data))

    #As far as I know, THD=sqrt(sum of square magnitude of
    #harmonics+noise)/Fundamental value (Is it correct?)So I'm
    #just summing up square of all frequency data obtained from FFT,
    #sqrt() them and dividing them with fundamental frequecy value.

    def thd(abs_data):
    sq_sum=0.0
    for r in range(len(abs_data)):
       sq_sum=sq_sum+(abs_data[r])**2
    sq_harmonics=sq_sum-(max(abs_data))**2.0
    thd=100*sq_harmonics**0.5/max(abs_data)
    return thd

    print "Total Harmonic Distortion(in percent):" …

Run Code Online (Sandbox Code Playgroud)

python numpy fft arduino sampling

tah*_*314

lucky-day

4
推荐指数

1
解决办法

1万
查看次数

基于列值的随机抽样熊猫

我有文件（A、B、C 等），每个文件都有 12,000 个数据点。我已将文件分成 1000 个点的批次并计算每个批次的值。所以现在对于每个文件，我们有 12 个值，它们被加载到一个 Pandas 数据帧中（如下所示）。

    file    value_1     value_2
0   A           1           43
1   A           1           89
2   A           1           22
3   A           1           87
4   A           1           43
5   A           1           89
6   A           1           22
7   A           1           87
8   A           1           43
9   A           1           89
10  A           1           22
11  A           1           87
12  A           1           83
13  B           0           99
14  B           0           23
15  B           0           29
16  B           0 …

Run Code Online (Sandbox Code Playgroud)

python sampling pandas

RnK*_*RnK

lucky-day

4
推荐指数

1
解决办法

9089
查看次数

生成唯一（非重复）随机数的高效算法

我想解决以下问题。我必须在一个非常大的集合中进行采样，数量级为 10^20，并提取一个样本而没有重复大小约为 10%-20% 的样本。鉴于集合的大小，我认为像 Fisher-Yates 这样的算法是不可行的。

我在想像随机路径树这样的东西可能适用于 O(n log n) 并且不能更快地完成，但我想问一下是否已经实现了这样的东西。

感谢您的时间！

sorting algorithm sampling resampling

San*_*zco

lucky-day

4
推荐指数

1
解决办法

787
查看次数

从 pandas 数据帧中提取子集确保不重叠？

假设我有 2 个df具有297232 x 122维度和df_raw维度的Pandas 数据框840380x122。df已经是的子集df_raw。两个数据帧的索引均为DateTime。我想对70%来自和df的30%值进行采样df_raw（如果需要，可以随机采样），同时确保采样的数据帧子集在索引方面没有重叠。

更准确地说，df_subset将从70%中随机选择值df，并从中随机df_raw_subset选择30%值df_raw，但df_subset和df_raw_subset不应该包含采样行的重叠，即它们应该具有唯一的DateTime索引。

python datetime sampling dataframe pandas

JCh*_*hat

lucky-day

4
推荐指数

1
解决办法

811
查看次数

SMOTE - 无法将字符串转换为浮点数

我想我在下面的代码中遗漏了一些东西。

from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE


# Split into training and test sets

# Testing Count Vectorizer

X = df[['Spam']]
y = df['Value']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=40)
X_resample, y_resampled = SMOTE().fit_resample(X_train, y_train)


sm =  pd.concat([X_resampled, y_resampled], axis=1)

Run Code Online (Sandbox Code Playgroud)

当我收到错误时

ValueError：无法将字符串转换为浮点数：---> 19 X_resampled，y_resampled = SMOTE（）.fit_resample（X_train，y_train）

数据示例是

Spam                                             Value
Your microsoft account was compromised             1
Manchester United lost against PSG                 0
I like cooking                                     0

Run Code Online (Sandbox Code Playgroud)

我会考虑转换训练集和测试集来解决导致错误的问题，但我不知道如何应用于两者。我在谷歌上尝试了一些例子，但它没有解决问题。

python sampling resampling pandas smote

Mat*_*ath

2020 12-14

4
推荐指数

1
解决办法

1万
查看次数