小编sep*_*ram的帖子

查找数据集中的异常值

我有一个python脚本,它创建服务器正常运行时间和性能数据列表的列表,其中每个子列表(或"行")包含特定集群的统计信息.例如,格式很好看起来像这样:

-------  -------------  ------------  ----------  -------------------
Cluster  %Availability  Requests/Sec  Errors/Sec  %Memory_Utilization
-------  -------------  ------------  ----------  -------------------
ams-a    98.099          1012         678          91
bos-a    98.099          1111         12           91
bos-b    55.123          1513         576          22
lax-a    99.110          988          10           89
pdx-a    98.123          1121         11           90
ord-b    75.005          1301         123          100
sjc-a    99.020          1000         10           88
...(so on)...
Run Code Online (Sandbox Code Playgroud)

所以在列表形式中,它可能看起来像:

[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
Run Code Online (Sandbox Code Playgroud)

我的问题:确定每列中异常值的最佳方法是什么?或者异常值不一定是解决发现"坏"问题的最佳方式?在上面的数据,我肯定会想了解BOS-b和ORD-B,以及AMS-A,因为它的误差率如此之高,但其他人可以被丢弃.根据列,由于更高不一定更糟,也不是更低,我试图找出最有效的方法来做到这一点.看起来numpy对于这类东西有很多提及,但不确定从哪里开始(遗憾的是,我比统计学家更多的是系统管理员......).

提前致谢!

python statistics

17
推荐指数
3
解决办法
2万
查看次数

gulp-image-resize生成多个输出大小

我想使用gulp生成一堆不同的图像大小并同时优化它们.我认为这个问题有两种方法:

首先,您可以为每个大小创建n个不同的任务,然后创建一个调用每个调整大小任务的主任务.主任务可能类似于:

gulp.task('resize_images',['resize_100','resize_300','resize_800','resize_1000']);
Run Code Online (Sandbox Code Playgroud)

这似乎没问题,并且您可以获得良好的并行化,但是每个任务都有很多重复的代码,这意味着如果大小列表变得足够大,维护它可能是一场噩梦.

我的另一个想法是创建一个单独的任务,但在其中使用for循环来迭代每个大小.像这样:

var gulp = require('gulp');
var imageminWebp = require('imagemin-webp');
var imageResize = require('gulp-image-resize');
var notify = require('gulp-notify');
var os = require('os');
var parallel = require('concurrent-transform');
var pipes = require('gulp-pipes');

gulp.task('resize_images', function() {

    var sizes = [100,300,800,1000,2000];
    var stream;

    for (size in sizes) {
        stream = gulp.src('images/master/**/*.{jpg,png,tiff}')
            .pipe(parallel(
                    imageResize({
                        width:  sizes[size],
                        height: sizes[size],
                        upscale: false
                }),
                os.cpus().length
            ))
           .pipe(pipes.image.optimize())
           .pipe(gulp.dest('images/derivative/' + sizes[size] + '/'))
           .pipe(imageminWebp({quality: 75})())
           .pipe(gulp.dest('images/derivative/' + sizes[size] + '/'))
   }
   return …
Run Code Online (Sandbox Code Playgroud)

image-resizing gulp

6
推荐指数
2
解决办法
3387
查看次数

时间序列直方图

是否可以使用R或D3.js 创建如演示文稿(幻灯片36-39)中描述的时间序列直方图?或者有更好的方法将分段数据显示为时间序列吗?

编辑:这是一些预先打包的样本数据.理想情况下,D3或R会单独进行分组.是的,如果不清楚,我明白我自己可以写这个.我只是想知道是否已经有一个包来做这个,我还没有碰到它.谢谢!

r time-series histogram d3.js

5
推荐指数
2
解决办法
8162
查看次数

Apache NiFi - 使用多个 FlowFiles 作为处理器的输入

我有一个工作流程,其中两个或多个输入对它们执行了设置操作(并集、补集等)以生成单个输出。我希望必须编写一个处理器来自己完成设置逻辑,但是否有可能使用不同来源的多个流文件并同时处理它们?

apache-nifi

3
推荐指数
1
解决办法
4498
查看次数

根据值在多维dict中查找键

我有一个dicts的词典,如下所示:

{ 'a':{'foo': True,
       'bar': 1,
       'baz': 'abc'},
  'b':{'foo': True,
       'bar': 21,
       'baz': 'abc'},
  'c':{'foo': True,
       'bar': 3,
       'baz': 'cba'}}
Run Code Online (Sandbox Code Playgroud)

筛选dict的最有效方法是仅包含那些'baz'的子值为'abc'的键?所以在上面的例子中,它将返回一个看起来像的字典:

{ 'a':{'foo': True,
       'bar': 1,
       'baz': 'abc'},
  'b':{'foo': True,
       'bar': 21,
       'baz': 'abc'}}
Run Code Online (Sandbox Code Playgroud)

python dictionary

1
推荐指数
1
解决办法
1479
查看次数