小编nik*_*UoM的帖子

制作一个表格,显示R中变量的10个最大值？

我想创建一个简单的表,展示我的数据集中给定变量的最大10个值,以及每个观察的4个其他变量,所以基本上是我的数据的一小部分.它看起来像这样:

Score  District  Age  Group  Gender
17     B         23    Red   1
12     A         61    Red   0
11.7   A         18    Blue  0
10     B         18    Red   0
.
.
etc.

Run Code Online (Sandbox Code Playgroud)

从而在Score var上对数据进行排序.所有数据都包含在同一数据帧中.

r subset tabular r-table

nik*_*UoM

2015 08-11

6
推荐指数

2
解决办法

2万
查看次数

R - 反转gsub:保持只与gsub参数匹配

我正在运行一个字符向量(大约10,000个条目),它有很多信息我希望丢弃,但我想保留相当多的信息.我想要保留的信息必须匹配另一个字符向量中的给定字符串.因此,这将是matching_points包含满足匹配条件的参数的向量:

matching_points <- "house|techno|pop|jazz|dreampop|artrock"

Run Code Online (Sandbox Code Playgroud)

这将是我想要清理的矢量:

music <- c("tropical house", "tech house", "funk", "hardcore", "hard rock", "pop", "dream pop", "free jazz")

Run Code Online (Sandbox Code Playgroud)

通过清理操作,我希望矢量music看起来像这样

[1] "house"  "house"  ""  ""  ""  "pop"  "pop"  "jazz"

Run Code Online (Sandbox Code Playgroud)

如果有人知道如何做到这一点会很棒 - 我怀疑有一个简单的选项可以应用于该gsub过程以反转过程,即保持匹配的东西并用其他所有东西替换"".

regex grep r gsub

nik*_*UoM

2016 06-15

4
推荐指数

1
解决办法

1267
查看次数

How to format a difftime object to a string with HH:MM:SS

I think this is quite a simple question, I am however incapable of solving it, so any help would be greatly appreciated.

I have a difftime object, generated as follows:

> duration <- difftime(end_time, start_time)
> duration
Time difference of 15.74106 secs

Run Code Online (Sandbox Code Playgroud)

The end_time and start_time objects are POSIXct objects and look like this:

> c(start_time, end_time)
[1] "2018-07-08 20:07:56 EDT" "2018-07-08 20:08:12 EDT"

Run Code Online (Sandbox Code Playgroud)

I need duration to be displayed in HH:MM:SS format - i.e. like this, in a string: …

r difftime

nik*_*UoM

lucky-day

4
推荐指数

2
解决办法

517
查看次数

R - 模拟从核密度估计获得的概率密度分布的数据

首先,我不完全确定这是否是发布此内容的正确位置,因为它可能会出现在更加统计数据的论坛中.但是,由于我打算用R实现这个,我认为最好在这里发布.如果我错了,请道歉.

所以,我想要做的是以下内容.我想模拟总共250,000个观测值的数据,根据经验数据(离散)得出的核密度估计值分配连续(非整数)值,原始值范围从-5到+5.这是我想要使用的分布图.

对我来说非常重要的是我不会根据离散概率模拟新数据,而是连续模拟新数据,因为一个值可以说是2.89而不是3或2是非常重要的.所以新值将基于图中描绘的概率.模拟数据中最常见的值约为+2,而-4和+5附近的值则相当罕见.

我已经做了很多关于在R中模拟数据以及内核密度估计如何工作的阅读,但我真的没有向前发展.所以我的问题基本上需要两个步骤 - 我如何模拟数据(1)以及如何使用这个特定的概率分布模拟数据(2)？

在此先感谢,我希望你们可以帮助我解决这个问题.

simulation r kernel-density

nik*_*UoM

lucky-day

3
推荐指数

1
解决办法

1440
查看次数

将表转换为数据框，第一列作为变量 - R

我在 R 中有一个 table 对象。它看起来有点像这样：

           2422 2581 3363
  16566    0    1    0
  16568    0    2    0
  16598    0    1    0
  16627    0    1    0
  16683    0    1    0
  16701    0    1    0
  16740    0    1    0
  16741    0    1    0

Run Code Online (Sandbox Code Playgroud)

我想将它转换为一个数据框，这个数据框应该有4 个变量，而不是 3 个。换句话说，第一列16566, 16568,等应该是一个变量 - 我们称之为 ID。其他变量应该是2422, 2581, 3363列。

我试过了 as.data.frame() ， as.data.frame.matrix() 但两个函数都以某种方式吞下了第一列。

在此先感谢您的帮助！

r dataframe

nik*_*UoM

lucky-day

3
推荐指数

1
解决办法

6655
查看次数

R - 使用正则表达式删除2个字符或更少的所有字符串

我遇到了一个问题,我确信它的修复非常简单,但我一直在寻找大约一个小时的答案,似乎无法解决问题.

我有一个字符向量,其数据看起来有点像这样:

  [5] "Toronto, ON"                    "Manchester, UK"                    
  [7] "New York City, NY"              "Newark, NJ"             
  [9] "Melbourne"                      "Los Angeles, CA"                         
 [11] "New York, USA"                  "Liverpool, England"            
 [13] "Fort Collins, CO"               "London, UK"                              
 [15] "New York, NY"

Run Code Online (Sandbox Code Playgroud)

基本上我想摆脱2位或更短的所有字符元素,以便数据可以如下所示:

  [5] "Toronto, "                      "Manchester, "                    
  [7] "New York City, "                "Newark, "             
  [9] "Melbourne"                      "Los Angeles, "                         
 [11] "New York, USA"                  "Liverpool, England"            
 [13] "Fort Collins, "                 "London, "                              
 [15] "New York, "

Run Code Online (Sandbox Code Playgroud)

我知道如何摆脱的逗号.正如我所说的,我确信这非常简单,任何帮助都会非常感激.谢谢!

regex string r

nik*_*UoM

lucky-day

-1
推荐指数

1
解决办法

59
查看次数