小编Dan*_*n Q的帖子

如何从数据集中删除异常值

我有一些美丽与年龄的多元数据.年龄范围为20-40,间隔为2(20,22,24 ...... 40),并且对于每个数据记录,它们的年龄和美容等级为1-5.当我对这些数据进行箱形图(横跨X轴的年龄,Y轴上的美观评级)时,在每个框的胡须外面都会绘制一些异常值.

我想从数据框本身中删除这些异常值,但我不确定R如何计算其箱形图的异常值.下面是我的数据可能是什么样子的示例. 在此输入图像描述

statistics r outliers

Dan*_*n Q

2018 05-21

92
推荐指数

8
解决办法

31万
查看次数

给定2个排序的整数数组,找到次线性时间中的第n个最大数

可能重复:
如何在两个排序数组的并集中找到第k个最小元素？

这是一个问题,我的一位朋友告诉我他在面试时被问到,我一直在考虑解决方案.

次线性时间对我来说意味着对数,所以也许是某种分而治之的方法.为简单起见,假设两个数组的大小相同,并且所有元素都是唯一的

arrays algorithm time-complexity

Dan*_*n Q

2017 05-23

25
推荐指数

2
解决办法

3万
查看次数

数据框所有行的平均列值

我有一个数据框,我从这样的文件中读取:

name, points, wins, losses, margin
joe, 1, 1, 0, 1
bill, 2, 3, 0, 4
joe, 5, 2, 5, -2
cindy, 10, 2, 3, -2.5

Run Code Online (Sandbox Code Playgroud)

等等

我想在这些数据的所有行中平均列值,是否有一种简单的方法在R中执行此操作？

例如,我想获得所有"Joe's"的平均列值,如下所示

joe, 3, 1.5, 2.5, -.5

Run Code Online (Sandbox Code Playgroud)

aggregate r dataframe

Dan*_*n Q

2013 03-28

9
推荐指数

2
解决办法

9456
查看次数

如何增加graphviz中边(样条)和节点之间的空间？

我手动指定了每个节点的起始位置并设置了splines = true.

生成的图像如下所示:

1031和1028之间的样条似乎触及节点1030和1029.我只是想知道是否有办法增加边距.我已经尝试指定esep ="+ 3,3"以在节点周围提供非常高的余量,但仍然输出相同的图形.

graphviz neato

Dan*_*n Q

lucky-day

7
推荐指数

1
解决办法

1654
查看次数

如何在git的BASH shell中更改我的默认浏览器？

出于某种原因,当我尝试查看git帮助页面时,它会在gedit而不是chrome中打开它们,如何将其配置为再次启动chrome？我在Windows 7中使用git的bash控制台.

git

Dan*_*n Q

lucky-day

6
推荐指数

1
解决办法

3758
查看次数

如何使用存储为CSV的矢量数据在mahout中执行k-means聚类？

我有一个包含数据向量的文件,其中每行包含逗号分隔的值列表.我想知道如何使用mahout对这些数据执行k-means聚类.wiki中提供的示例提到创建sequenceFiles,但是否则我不确定是否需要进行某种类型的转换才能获得这些sequenceFiles.

k-means mahout

Dan*_*n Q

lucky-day

6
推荐指数

1
解决办法

8073
查看次数

查询Lucene IndexSearcher中的所有结果

我正在使用Lucene的contrib/demo目录中的SearchFiles类.我想要检索与查询匹配的所有文档,而不是以分页形式搜索结果.有没有办法用现有的API(3.4)做到这一点？似乎所有搜索功能都需要一个整数来指示返回的命中数.

演示代码看起来像

TopDocs results = searcher.search(query, 5 * hitsPerPage);
ScoreDoc[] its = results.scoreDocs;

Run Code Online (Sandbox Code Playgroud)

这只会返回固定数量的结果

java lucene

Dan*_*n Q

lucky-day

5
推荐指数

2
解决办法

2849
查看次数

尽管是64位版本,但无法在R中分配向量

我正试图在R中做一个dcast来生成一个矩阵,如我问的另一个问题所示

但是,我收到一个错误:

错误:无法分配大小为2.8Gb的向量.

我的桌面有8GB的RAM,我正在运行ubuntu 11.10 64位版本.我可能使用了错误的R版本吗？我怎么知道,有没有办法在运行R时确定它？我当然必须有足够的空间来分配这个载体.

Dan*_*n Q

2017 05-23

3
推荐指数

1
解决办法

3476
查看次数

如何为mahout和hadoop添加maven依赖项？

我正在做一个项目,它依赖于mahout和hadoop核心jar中的某些类.我之前使用带有classpath选项的javac来包含它们,但有人建议我应该使用maven来构建我的项目.但是,我不确定如何将依赖项添加到位于我的/ usr/local目录中的这些jar文件.

java hadoop maven mahout

Dan*_*n Q

lucky-day

3
推荐指数

1
解决办法

5711
查看次数

线程化时是否多次分配java静态字段？

我正在开发一个组项目,其中我们在Worker类中声明了几个静态常量.这个worker的多个线程被生成,我们的java应用程序似乎使用了大量的内存.我想知道这是否是每个线程分配更多这些静态常量的结果,但我不确定.

java memory static multithreading

Dan*_*n Q

2012 03-15

3
推荐指数

1
解决办法

713
查看次数

标签统计

java ×3

r ×3

mahout ×2

aggregate ×1

algorithm ×1

arrays ×1

dataframe ×1

git ×1

graphviz ×1

hadoop ×1

k-means ×1

lucene ×1

maven ×1

memory ×1

multithreading ×1

neato ×1

outliers ×1

static ×1

statistics ×1

time-complexity ×1

标签 统计

小编Dan_n Q的帖子

标签统计