我正在运行 RandomForest。我已经导入了表示已使用和未使用站点的点数据,并从栅格 GIS 图层创建了一个栅格堆栈。我已经创建了一个 SpatialPointDataFrame,其中包含所有已使用和未使用的点,并附加了它们的基础栅格值。
require(sp)
require(rgdal)
require(raster)
#my raster stack
xvariables <- stack(rlist) #rlist = a list of raster layers
# Reading in the spatial used and unused points.
ldata <- readOGR(dsn=paste(path, "DATA", sep="/"), layer=used_avail)
str(Ldata@data)
#Attach raster values to point data.
v <- as.data.frame(extract(xvariables, ldata))
ldata@data = data.frame(ldata@data, v[match(rownames(ldata@data), rownames(v)),])
Run Code Online (Sandbox Code Playgroud)
接下来我计划使用这些数据运行随机森林。问题是,我有一个非常大的数据集(超过 40,000 个数据点)。我需要对我的数据进行子采样,但我很难弄清楚如何做到这一点。我试过使用 sample() 函数,但我认为因为我有一个 SpatialPointsDataFram 它不起作用?我是 R 的新手,非常感谢任何想法。
谢谢!
为了评估使用盒式滤波器/均值滤波器与使用高斯滤波器的性能影响(包括计算和质量),我想知道盒式滤波器的大小和盒式磁带的sigma之间是否存在正确的关系.具有"等效"平滑的高斯滤波器.
更具体地说,我需要比较使用2x2盒式滤波器将图像二次采样与使用等效高斯滤波器进行二次采样之间的差异,该滤波器将考虑4个以上的采样.
我有两个关于如何处理这个问题的想法:
此外,我不确定如何融入我们居住在这里的离散空间.对应的高斯滤波器是否只是四个最近样本的权重最接近1/4的那个?
filtering signal-processing image-processing gaussian subsampling
我有一个问题,我想绘制数据分布,其中某些值经常出现,而其他值则非常罕见。总点数约为30.000。渲染像 png 或(上帝禁止)pdf 这样的图需要很长时间,而且 pdf 太大而无法显示。
所以我想对数据进行二次采样以绘制绘图。我想要实现的是删除很多重叠的点(密度高的点),但保留密度低的点,概率几乎为 1。
现在,numpy.random.choice允许指定一个概率向量,我根据数据直方图计算出该概率向量,并进行了一些调整。但我似乎无法得到我的选择,以便真正保留稀有点。
我附上了数据的图像;分布的右尾部的点少了几个数量级,所以我想保留这些点。数据是 3d 的,但密度仅来自一维,因此我可以将其用作给定位置中有多少个点的度量

上图来自Yann LeCun的pdf文件,标题为“感知和推理的层次模型”
我无法理解第2层是14X14要素地图的方式?带有10X10池化和5X5子采样的75X75矩阵如何提供14X14矩阵?
pooling object-recognition neural-network subsampling deep-learning
我想从datetime列以小时为间隔对数据帧进行子采样,从数据帧第一行的时间值开始.我的数据框从第一行到最后一行每隔10分钟运行一次.示例数据如下:
structure(list(datetime = structure(1:19, .Label = c("30/03/2011 05:09",
"30/03/2011 05:19", "30/03/2011 05:29", "30/03/2011 05:39", "30/03/2011 05:49",
"30/03/2011 05:59", "30/03/2011 06:09", "30/03/2011 06:19", "30/03/2011 06:29",
"30/03/2011 06:39", "30/03/2011 06:49", "30/03/2011 06:59", "30/03/2011 07:09",
"30/03/2011 07:19", "30/03/2011 07:29", "30/03/2011 07:39", "30/03/2011 07:49",
"30/03/2011 07:59", "30/03/2011 08:09"), class = "factor"), a_count = c(66L,
34L, 33L, 20L, 12L, 44L, 36L, 29L, 21L, 22L, 17L, 38L, 24L, 19L,
60L, 54L, 27L, 36L, 45L), b_count = c(166.49, 167.54, 168.31,
168.81, 169.24, 169.61, 169.96, 170.29, 170.63, 170.98, …Run Code Online (Sandbox Code Playgroud) 我想sample_n()在dplyr中做,除了我不希望采样是随机的,我打算每隔n行采样一次.
有没有办法做到这一点?
例如,我想获得的每10行airquality通过订购后的数据集Month和Day.预期产量:
Ozone Solar.R Wind Temp Month Day
NA 194 8.6 69 5 10
11 44 9.7 62 5 20
115 223 5.7 79 5 30
71 291 13.8 90 6 9
12 120 11.5 73 6 19
NA 31 14.9 77 6 29
...
Run Code Online (Sandbox Code Playgroud) subsampling ×7
r ×3
colors ×1
datetime ×1
dplyr ×1
filtering ×1
gaussian ×1
matplotlib ×1
numpy ×1
pooling ×1
python-3.x ×1
yuv ×1