给定
A = torch.tensor([0.0316, 0.2338, 0.2338, 0.2338, 0.0316, 0.0316, 0.0860, 0.0316, 0.0860])包含总和为 1 的概率的张量(我删除了一些小数,但可以安全地假设它总和为 1),我想采样一个值,其中A值本身就是采样的可能性。例如,0.0316从中采样的可能性A是0.0316。采样值的输出仍然应该是一个张量。
我尝试使用WeightedRandomSampler,但它不允许选择的值再成为张量,而是分离。
使这一点变得棘手的一个警告是,我还想知道张量中出现的采样值的索引。也就是说,假设我采样0.2338,我想知道它是索引1还是张2量。3A
快速提问:
实现这一行python代码的最佳方法是什么(从给定范围生成两个随机但不同的数字)...
random.sample(xrange(10), 2)
Run Code Online (Sandbox Code Playgroud)
...在Javascript中?
提前致谢!
马丁
我正在使用传感器来平衡机器人,但SENSOR_DELAY_FASTEST只提供10Hz的采样率,这根本不够快.有更快的采样方式吗?
有没有办法轮询传感器而不是等待SensorEvent?
我是android的新手,正在研究加速度计.我想每秒收集20个x,y,z样本,为此我可以使用以下内容吗?int rate中的registerListener(SensorEventListener监听器,传感器传感器,int rate)可以使用3000000(微秒),这样我每3000000(微秒)或3秒就得到一个x,y,z值,所以它就像registerListener(这个,Accelerometer,3000000); 并在1秒内得到20个x,y,z样本.如果我错了可以有人建议我如何解决这个问题吗?
谢谢你的时间!
我的数据框很简单.两列:第一列具有基因型(1-39),第二列具有特征值(数字,连续).我想选择8种基因型并计算相关性状值的平均值和stdev.
最后,我想对8个基因型进行10,000次抽样,对于每个样本,我希望得到相关性状值的stdev和均值.理想情况下,这将是一个矩阵,其中每行代表一个样本,每个基因型有8列,stdev有2个最终列,与这些基因型相关的特征值平均值.这可能也是另一种方式.
如何从数据框中的两个不同列进行采样,以便在新样本中显示这两个值?即计算平均值和stdev的基因型和性状值
如上所述,如何将此样本转换为矩阵?
你如何重复这个过程10,000次?
再次感谢!
我需要从列表中取出一个主题样本,将它们分配为一个必须具有相似变量组成的研究的对照组.我试图在R中使用示例函数执行此操作,但我不知道如何为每个变量指定不同的概率.假设我有一个包含以下标题的表:
ID名称活动性别
我需要10个主题的样本,其中包含以下Campaign活动属性:
D2D - > 25%
F2F - > 38%
TM - > 17%
WW - > 21%
这意味着从我的数据集中,我有25%的受试者来自门到门运动(D2D),38%受试者来自面对面运动(F2F)等
性别构成如下:
男性 - > 54%
女性 - > 46%
当我得到10个受试者的随机样本时,我需要它具有相似的成分.
我一直在寻找几个小时,而我能得到的最接近的是这个答案:在R中获取数据样本, 但我需要分配多个概率.
我相信这可以帮助任何想要从数据集中获取代表性样本的人.
菜鸟这里 - 我有一个大约75,000个观测数据和2000个唯一ID的大数据集.因此,每个ID有大约37个观察值.现在,我如何随机抽取唯一ID,例如4,这样我就有了一个新的数据框,其中包含4个随机唯一ID及其相应的观察结果,共计约150个观察值?
我一直在使用烂番茄电影评论数据集进行情感分析预测.数据集有5个类{0,1,2,3,4},其中0表示非常负,4表示非常正数数据集非常不平衡,
total samples = 156061
'0': 7072 (4.5%),
'1': 27273 (17.4%),
'2': 79583 (50.9%),
'3': 32927 (21%),
'4': 9206 (5.8%)
正如你所看到的,课程2有近50%的样本,0并且5贡献了约10%的训练集
因此,课堂上有很强的偏见,2从而降低了课堂0和课堂分类的准确性4.
我该怎么做才能平衡数据集?一种解决方案是通过将每个类别的样本减少到7072来获得相同数量的样本,但它会大大减少数据集!如何在不影响整体分类准确性的情况下优化和平衡数据集?
machine-learning dataset sampling random-forest scikit-learn
我正在寻找Python中的高效函数,它可以在不替换的情况下进行样本选择,而是通过实际改变原始列表.也就是说,替代方案:
random.sample(population, k)
Run Code Online (Sandbox Code Playgroud)
在选择样本时从原始列表中删除元素.列表可以是数百万个项目,并且可能会对样本函数进行数十次后续调用.
理想情况下,我想做的事情如下:
sample_size_1 = 5
sample_size_2 = 200
sample_size_3 = 100
population = range(10000000)
sample_1 = select_sample(population, sample_size_1) #population is shrunk
sample_2 = select_sample(population, sample_size_2) #population is shrunk again
sample_3 = select_sample(population, sample_size_3) #and population is shrunk again
Run Code Online (Sandbox Code Playgroud)
在population每次调用select_sample之间有效缩小的位置.
我有一些代码,我可以在这里展示,但我希望已经可以获得的东西,或者比我的while循环更多的"pythonic".
我有一个相对较高的矩阵Q(100X500000),我想对它进行下采样.通过下采样,我将用一个例子来解释.
设Q =
1 4 9
3 2 1
Run Code Online (Sandbox Code Playgroud)
和缩减样本大小= n.我想从一个总和(Q)= 20个球中抽出n个球,每个球用6种方式中的1种颜色对应于矩阵的不同索引对.这就好像我有1个颜色的球A,4个颜色的球B等,我正在画n个球而没有替换.
我希望它以相同的格式返回,作为矩阵.一个示例返回值,例如,下采样(Q,3)=
0 0 2
1 0 0
Run Code Online (Sandbox Code Playgroud)
我的方法是尝试使用示例:
sample(length(as.vector(Q)), size=n, replace=FALSE, prob = as.vector(Q))
Run Code Online (Sandbox Code Playgroud)
然而问题是,样本认为1:长度(as.vector(Q))就像我拥有的所有球一样,所以我不能画出超过长度(as.vector(Q))球,因为我不是替换我的球.
那么为了适应我的方法,我需要通过从这个向量中减去1来更新我的概率,并使用某种类型的for循环逐个调用样本.它听起来不像很好的代码.
有没有更好的方法在R友好,不循环的方式做到这一点?
sampling ×10
r ×4
random ×3
android ×2
matrix ×2
python ×2
algorithm ×1
dataset ×1
downsampling ×1
javascript ×1
large-data ×1
probability ×1
pytorch ×1
sample ×1
scikit-learn ×1
sensor ×1
unique ×1