我正在尝试创建我的大型非平衡数据集的N个平衡随机子样本.有没有办法简单地使用scikit-learn/pandas或者我必须自己实现它?任何指向这样做的代码的指针?
这些子样本应该是随机的,并且可以重叠,因为我在非常大的分类器集合中将每个子样本提供给单独的分类器.
在Weka中有一个名为spreadsubsample的工具,sklearn中有相同的东西吗? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample
(我知道加权但这不是我想要的.)
我有一个从tsv文件加载的DataFrame.我想生成一些探索性的情节.问题是数据集很大(约100万行),所以在图上有太多的点来看趋势.此外,它需要一段时间来绘制.
我想对10000个随机分布的行进行子采样.此外,这应该是可重现的,因此在每次运行中生成相同的随机数序列.
感谢帮助.
这样:以相同的方式采样两个pandas数据帧似乎在正确的轨道上,但我不能保证子样本大小.
我有一个带浮子的numpy数组.
我想有(如果它不是已经存在)是一个函数,给我的平均每x点的定数组中一个新的数组,像子采样(和插值(?)的对面).
例如sub_sample(numpy.array([1,2,3,4,5,6]),2)给出[1.5,3.5,5.5]
例如,可以删除剩余物,例如sub_sample(numpy.array([1,2,3,4,5]),2)给出[1.5,3.5]
提前致谢.
我有多边形来定义英国各县的轮廓.这些形状非常详细(每个10k到20k点),因此渲染相关的计算(多边形P?中的点X)非常昂贵.
因此,我想"子采样"我的多边形,以获得相似的形状,但点数较少.有什么不同的技术呢?
琐碎的一个是每N一点拿一个(因此用一个因子进行二次抽样N),但这感觉太"粗糙"了.我宁愿做点平均值,也不想做点什么.任何指针?
在SciKit-Learn Random Forest分类器的文档中,有人说
子样本大小始终与原始输入样本大小相同,但如果bootstrap = True(默认),则使用替换绘制样本.
我不明白的是,如果样本大小总是与输入样本大小相同,那么我们如何谈论随机选择.这里没有选择,因为我们在每次训练时使用所有(并且自然相同)的样本.
我在这里错过了什么吗?
我正在寻找一个如何使用该libjpeg库将YUYV格式帧保存为JPEG文件的示例.
我知道有很多方法可以使用双线性、双三次等来放大(插值)图像……不知何故,这些相同的算法也可以用于缩小图像。但是当涉及到子采样时,我只遇到过两种方法:高斯模糊然后丢弃一些行和列,或者块平均。
是否有双线性、双三次……二次采样之类的东西?
我可以/应该先进行高斯模糊然后进行块平均,而不是进行高斯模糊然后丢弃或进行块平均吗?或者双线性,双三次,...二次采样(如果有的话)?
我正在做的是尝试制作图像高斯金字塔和拉普拉斯金字塔;但我不知道如何抽取和插入图像。一些带有 Scipy/Numpy 的 Python 代码确实会有帮助。非常感谢。
我正在使用Dave Morrissey的子采样比例图像视图.我修改了Pinview示例(如下所示:https://github.com/davemorrissey/subsampling-scale-image-view/blob/master/sample/src/com/davemorrissey/labs/subscaleview/sample/extension/views/ PinView.java)支持pin的数组.现在我想让每个引脚都可以点击以启动点击功能.下面的代码正确放置了多个标记 请让我知道如何使每个引脚可点击,我想读取内部点击事件功能的id并在吐司示例MapPin(1718f,581f,(id)1)中显示.
修改了PinView.java
public class PinView extends SubsamplingScaleImageView {
private PointF sPin;
ArrayList<MapPin> mapPins;
ArrayList<DrawPin> drawnPins;
Context context;
String tag = getClass().getSimpleName();
public PinView(Context context) {
this(context, null);
this.context = context;
}
public PinView(Context context, AttributeSet attr) {
super(context, attr);
this.context = context;
initialise();
}
public void setPins(ArrayList<MapPin> mapPins) {
this.mapPins = mapPins;
initialise();
invalidate();
}
public void setPin(PointF pin) {
this.sPin = pin;
}
public PointF getPin() { …Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其中每组包含多个样本(1-n)。我想对这个数据集进行采样,而不进行替换,以便每组最多有 5 个样本 (1-5)。
此问题之前已在此处进行过描述和解答。在这个问题中,@evolvedmicrobe的答案对我来说是最满意的,并且在过去一直有效。这种情况似乎在去年左右就被打破了。
这是我想做的一个可行的例子:
从 mtcars 中,按“cyl”分组时有不同数量的行。
table(mtcars$cyl)
4 6 8
11 7 14
Run Code Online (Sandbox Code Playgroud)
我想创建一个子样本,其中每组气缸的最大汽车数量为 10 辆。理论上,生成的行数如下所示:
table(subsample$cyl)
4 6 8
10 7 10
Run Code Online (Sandbox Code Playgroud)
我对此的天真尝试是:
library(dplyr)
subsample <- mtcars %>% group_by(cyl) %>% sample_n(10) %>% ungroup()
Run Code Online (Sandbox Code Playgroud)
但是,因为一组的行数少于 10:
错误:
size必须小于或等于 7(数据大小),设置replace= TRUE 以使用带替换的采样
@evolvedmicrobe对此的回答是创建一个自定义采样函数:
### Custom sampler function to sample min(data, sample) which can't be done with dplyr
### it's a modified copy of sample_n.grouped_df
sample_vals <- function (tbl, size, replace …Run Code Online (Sandbox Code Playgroud) 我在R中做了一些分析,我需要处理一些大型数据集(10-20GB,存储在.csv中,并使用read.csv函数).
因为我还需要将大型.csv文件与其他数据帧合并和转换,我没有计算能力或内存来导入整个文件.
我想知道是否有人知道导入随机百分比的csv的方法.
我已经看到一些例子,人们已经导入了整个文件,然后使用一个单独的函数来创建另一个数据框架,这是原始文件的一个样本,但是我希望能有一些不那么密集的东西.