标签: subsampling

如何在 R 中对 SpatialPointsDataFrame 进行子采样

我正在运行 RandomForest。我已经导入了表示已使用和未使用站点的点数据，并从栅格 GIS 图层创建了一个栅格堆栈。我已经创建了一个 SpatialPointDataFrame，其中包含所有已使用和未使用的点，并附加了它们的基础栅格值。

require(sp)
require(rgdal)
require(raster)

#my raster stack
xvariables <- stack(rlist)  #rlist = a list of raster layers   

# Reading in the spatial used and unused points.
ldata <- readOGR(dsn=paste(path, "DATA", sep="/"), layer=used_avail)
str(Ldata@data)


#Attach raster values to point data.
v <- as.data.frame(extract(xvariables, ldata))
ldata@data = data.frame(ldata@data, v[match(rownames(ldata@data), rownames(v)),])

Run Code Online (Sandbox Code Playgroud)

接下来我计划使用这些数据运行随机森林。问题是，我有一个非常大的数据集（超过 40,000 个数据点）。我需要对我的数据进行子采样，但我很难弄清楚如何做到这一点。我试过使用 sample() 函数，但我认为因为我有一个 SpatialPointsDataFram 它不起作用？我是 R 的新手，非常感谢任何想法。

谢谢！

r subsampling random-forest

use*_*823

lucky-day

3
推荐指数

1
解决办法

3799
查看次数

与高斯滤波器西格玛相关的盒滤波器大小

为了评估使用盒式滤波器/均值滤波器与使用高斯滤波器的性能影响(包括计算和质量),我想知道盒式滤波器的大小和盒式磁带的sigma之间是否存在正确的关系.具有"等效"平滑的高斯滤波器.

更具体地说,我需要比较使用2x2盒式滤波器将图像二次采样与使用等效高斯滤波器进行二次采样之间的差异,该滤波器将考虑4个以上的采样.

我有两个关于如何处理这个问题的想法:

通过最小化box函数和高斯函数之间的平方差来找到等效sigma
在傅里叶空间做同样的事情(盒式滤波器将转换为sinc滤波器)

此外,我不确定如何融入我们居住在这里的离散空间.对应的高斯滤波器是否只是四个最近样本的权重最接近1/4的那个？

filtering signal-processing image-processing gaussian subsampling

Jac*_*ite

lucky-day

3
推荐指数

1
解决办法

1530
查看次数

如何根据数组的密度对数组进行二次采样？（删除频繁的值，保留罕见的值）

我有一个问题，我想绘制数据分布，其中某些值经常出现，而其他值则非常罕见。总点数约为30.000。渲染像 png 或（上帝禁止）pdf 这样的图需要很长时间，而且 pdf 太大而无法显示。

所以我想对数据进行二次采样以绘制绘图。我想要实现的是删除很多重叠的点（密度高的点），但保留密度低的点，概率几乎为 1。

现在，numpy.random.choice允许指定一个概率向量，我根据数据直方图计算出该概率向量，并进行了一些调整。但我似乎无法得到我的选择，以便真正保留稀有点。

我附上了数据的图像；分布的右尾部的点少了几个数量级，所以我想保留这些点。数据是 3d 的，但密度仅来自一维，因此我可以将其用作给定位置中有多少个点的度量

numpy matplotlib python-3.x subsampling

oar*_*ish

2018 11-30

3
推荐指数

1
解决办法

2538
查看次数

在著名的卷积神经网络示例中进行合并和二次采样后无法计算尺寸

Yann LeCun的感知和推理层次模型

上图来自Yann LeCun的pdf文件，标题为“感知和推理的层次模型”

我无法理解第2层是14X14要素地图的方式？带有10X10池化和5X5子采样的75X75矩阵如何提供14X14矩阵？

pooling object-recognition neural-network subsampling deep-learning

Abh*_*hek

2014 08-04

1
推荐指数

1
解决办法

2649
查看次数

证明YUV 4:2:0方案每像素的等效位数为12

colors yuv subsampling

Osa*_*far

lucky-day

0
推荐指数

1
解决办法

3962
查看次数

如何基于R中的日期时间列对数据帧进行子采样

我想从datetime列以小时为间隔对数据帧进行子采样,从数据帧第一行的时间值开始.我的数据框从第一行到最后一行每隔10分钟运行一次.示例数据如下:

structure(list(datetime = structure(1:19, .Label = c("30/03/2011 05:09", 
"30/03/2011 05:19", "30/03/2011 05:29", "30/03/2011 05:39", "30/03/2011 05:49", 
"30/03/2011 05:59", "30/03/2011 06:09", "30/03/2011 06:19", "30/03/2011 06:29", 
"30/03/2011 06:39", "30/03/2011 06:49", "30/03/2011 06:59", "30/03/2011 07:09", 
"30/03/2011 07:19", "30/03/2011 07:29", "30/03/2011 07:39", "30/03/2011 07:49", 
"30/03/2011 07:59", "30/03/2011 08:09"), class = "factor"), a_count = c(66L, 
34L, 33L, 20L, 12L, 44L, 36L, 29L, 21L, 22L, 17L, 38L, 24L, 19L, 
60L, 54L, 27L, 36L, 45L), b_count = c(166.49, 167.54, 168.31, 
168.81, 169.24, 169.61, 169.96, 170.29, 170.63, 170.98, …

Run Code Online (Sandbox Code Playgroud)

datetime r subsampling

Emi*_*ily

2013 10-30

0
推荐指数

1
解决办法

1156
查看次数

如何在dplyr中每n行非随机采样？

我想sample_n()在dplyr中做,除了我不希望采样是随机的,我打算每隔n行采样一次.

有没有办法做到这一点？

例如,我想获得的每10行airquality通过订购后的数据集Month和Day.预期产量:

   Ozone Solar.R Wind Temp Month Day
      NA     194  8.6   69     5  10
      11      44  9.7   62     5  20
     115     223  5.7   79     5  30
      71     291 13.8   90     6   9
      12     120 11.5   73     6  19
      NA      31 14.9   77     6  29

    ...

Run Code Online (Sandbox Code Playgroud)

r subsampling dplyr

daj*_*daj

2018 03-23

0
推荐指数

2
解决办法

1851
查看次数