标签: subsampling

Scikit-learn平衡子采样

我正在尝试创建我的大型非平衡数据集的N个平衡随机子样本.有没有办法简单地使用scikit-learn/pandas或者我必须自己实现它?任何指向这样做的代码的指针?

这些子样本应该是随机的,并且可以重叠,因为我在非常大的分类器集合中将每个子样本提供给单独的分类器.

在Weka中有一个名为spreadsubsample的工具,sklearn中有相同的东西吗? http://wiki.pentaho.com/display/DATAMINING/SpreadSubsample

(我知道加权但这不是我想要的.)

python subsampling pandas scikit-learn

39
推荐指数
5
解决办法
4万
查看次数

子样本pandas数据帧

我有一个从tsv文件加载的DataFrame.我想生成一些探索性的情节.问题是数据集很大(约100万行),所以在图上有太多的点来看趋势.此外,它需要一段时间来绘制.

我想对10000个随机分布的行进行子采样.此外,这应该是可重现的,因此在每次运行中生成相同的随机数序列.

感谢帮助.

这样:以相同的方式采样两个pandas数据帧似乎在正确的轨道上,但我不能保证子样本大小.

python numpy subsampling pandas

12
推荐指数
3
解决办法
1万
查看次数

对numpy数组进行子采样/平均

我有一个带浮子的numpy数组.

我想有(如果它不是已经存在)是一个函数,给我的平均每x点的定数组中一个新的数组,像子采样(和插值(?)的对面).

例如sub_sample(numpy.array([1,2,3,4,5,6]),2)给出[1.5,3.5,5.5]

例如,可以删除剩余物,例如sub_sample(numpy.array([1,2,3,4,5]),2)给出[1.5,3.5]

提前致谢.

python arrays numpy subsampling

9
推荐指数
1
解决办法
1万
查看次数

如何对2D多边形进行二次采样?

我有多边形来定义英国各县的轮廓.这些形状非常详细(每个10k到20k点),因此渲染相关的计算(多边形P?中的点X)非常昂贵.

因此,我想"子采样"我的多边形,以获得相似的形状,但点数较少.有什么不同的技术呢?

琐碎的一个是每N一点拿一个(因此用一个因子进行二次抽样N),但这感觉太"粗糙"了.我宁愿做点平均值,也不想做点什么.任何指针?

language-agnostic algorithm 2d polygon subsampling

6
推荐指数
1
解决办法
723
查看次数

SciKit-Learn Random Forest子样本大小如何等于原始训练数据大小?

在SciKit-Learn Random Forest分类器的文档中,有人说

子样本大小始终与原始输入样本大小相同,但如果bootstrap = True(默认),则使用替换绘制样本.

我不明白的是,如果样本大小总是与输入样本大小相同,那么我们如何谈论随机选择.这里没有选择,因为我们在每次训练时使用所有(并且自然相同)的样本.

我在这里错过了什么吗?

python subsampling random-forest scikit-learn

6
推荐指数
1
解决办法
1949
查看次数

如何使用libjpeg将YUYV原始数据压缩为JPEG?

我正在寻找一个如何使用该libjpeg库将YUYV格式帧保存为JPEG文件的示例.

c c++ yuv libjpeg subsampling

5
推荐指数
2
解决办法
7113
查看次数

子采样和缩小(图像)之间的区别?

我知道有很多方法可以使用双线性、双三次等来放大(插值)图像……不知何故,这些相同的算法也可以用于缩小图像。但是当涉及到子采样时,我只遇到过两种方法:高斯模糊然后丢弃一些行和列,或者块平均。

是否有双线性、双三次……二次采样之类的东西?

我可以/应该先进行高斯模糊然后进行块平均,而不是进行高斯模糊然后丢弃或进行块平均吗?或者双线性,双三次,...二次采样(如果有的话)?

我正在做的是尝试制作图像高斯金字塔和拉普拉斯金字塔;但我不知道如何抽取和插入图像。一些带有 Scipy/Numpy 的 Python 代码确实会有帮助。非常感谢。

python interpolation numpy scipy subsampling

5
推荐指数
0
解决办法
2074
查看次数

子采样比例图像视图 - 使图像视图上的引脚标记可单击

我正在使用Dave Morrissey的子采样比例图像视图.我修改了Pinview示例(如下所示:https://github.com/davemorrissey/subsampling-scale-image-view/blob/master/sample/src/com/davemorrissey/labs/subscaleview/sample/extension/views/ PinView.java)支持pin的数组.现在我想让每个引脚都可以点击以启动点击功能.下面的代码正确放置了多个标记 请让我知道如何使每个引脚可点击,我想读取内部点击事件功能的id并在吐司示例MapPin(1718f,581f,(id)1)中显示.

修改了PinView.java

   public class PinView extends SubsamplingScaleImageView {

   private PointF sPin;

   ArrayList<MapPin> mapPins;
   ArrayList<DrawPin> drawnPins;
   Context context;
   String tag = getClass().getSimpleName();

   public PinView(Context context) {
    this(context, null);
    this.context = context;
   }

   public PinView(Context context, AttributeSet attr) {
    super(context, attr);
    this.context = context;
    initialise();
   }

   public void setPins(ArrayList<MapPin> mapPins) {
    this.mapPins = mapPins;
    initialise();
    invalidate();
   }

   public void setPin(PointF pin) {
    this.sPin = pin;
   }

   public PointF getPin() { …
Run Code Online (Sandbox Code Playgroud)

java android bitmap imageview subsampling

5
推荐指数
1
解决办法
1412
查看次数

R(和 dplyr?) - 按组从数据帧中采样,最大样本大小为 n

我有一个数据框,其中每组包含多个样本(1-n)。我想对这个数据集进行采样,而不进行替换,以便每组最多有 5 个样本 (1-5)。

此问题之前已在此处进行过描述和解答。在这个问题中,@evolvedmicrobe的答案对我来说是最满意的,并且在过去一直有效。这种情况似乎在去年左右就被打破了。

这是我想做的一个可行的例子:

从 mtcars 中,按“cyl”分组时有不同数量的行。

table(mtcars$cyl)
 4  6  8 
11  7 14 
Run Code Online (Sandbox Code Playgroud)

我想创建一个子样本,其中每组气缸的最大汽车数量为 10 辆。理论上,生成的行数如下所示:

table(subsample$cyl)
 4  6  8
10  7 10
Run Code Online (Sandbox Code Playgroud)

我对此的天真尝试是:

library(dplyr)
subsample <- mtcars %>% group_by(cyl) %>% sample_n(10) %>% ungroup()
Run Code Online (Sandbox Code Playgroud)

但是,因为一组的行数少于 10:

错误:size必须小于或等于 7(数据大小),设置replace= TRUE 以使用带替换的采样

@evolvedmicrobe对此的回答是创建一个自定义采样函数:

### Custom sampler function to sample min(data, sample) which can't be done with dplyr
 ### it's a modified copy of sample_n.grouped_df
 sample_vals <- function (tbl, size, replace …
Run Code Online (Sandbox Code Playgroud)

r subsampling dplyr

5
推荐指数
2
解决办法
2515
查看次数

从R中的大型.CSV导入和提取随机样本

我在R中做了一些分析,我需要处理一些大型数据集(10-20GB,存储在.csv中,并使用read.csv函数).

因为我还需要将大型.csv文件与其他数据帧合并和转换,我没有计算能力或内存来导入整个文件.

我想知道是否有人知道导入随机百分比的csv的方法.

我已经看到一些例子,人们已经导入了整个文件,然后使用一个单独的函数来创建另一个数据框架,这是原始文件的一个样本,但是我希望能有一些不那么密集的东西.

csv statistics import r subsampling

4
推荐指数
1
解决办法
1625
查看次数