我想创建一个简单的表,展示我的数据集中给定变量的最大10个值,以及每个观察的4个其他变量,所以基本上是我的数据的一小部分.它看起来像这样:
Score District Age Group Gender
17 B 23 Red 1
12 A 61 Red 0
11.7 A 18 Blue 0
10 B 18 Red 0
.
.
etc.
Run Code Online (Sandbox Code Playgroud)
从而在Score var上对数据进行排序.所有数据都包含在同一数据帧中.
我正在运行一个字符向量(大约10,000个条目),它有很多信息我希望丢弃,但我想保留相当多的信息.我想要保留的信息必须匹配另一个字符向量中的给定字符串.因此,这将是matching_points包含满足匹配条件的参数的向量:
matching_points <- "house|techno|pop|jazz|dreampop|artrock"
Run Code Online (Sandbox Code Playgroud)
这将是我想要清理的矢量:
music <- c("tropical house", "tech house", "funk", "hardcore", "hard rock", "pop", "dream pop", "free jazz")
Run Code Online (Sandbox Code Playgroud)
通过清理操作,我希望矢量music看起来像这样
[1] "house" "house" "" "" "" "pop" "pop" "jazz"
Run Code Online (Sandbox Code Playgroud)
如果有人知道如何做到这一点会很棒 - 我怀疑有一个简单的选项可以应用于该gsub过程以反转过程,即保持匹配的东西并用其他所有东西替换"".
I think this is quite a simple question, I am however incapable of solving it, so any help would be greatly appreciated.
I have a difftime object, generated as follows:
> duration <- difftime(end_time, start_time)
> duration
Time difference of 15.74106 secs
Run Code Online (Sandbox Code Playgroud)
The end_time and start_time objects are POSIXct objects and look like this:
> c(start_time, end_time)
[1] "2018-07-08 20:07:56 EDT" "2018-07-08 20:08:12 EDT"
Run Code Online (Sandbox Code Playgroud)
I need duration to be displayed in HH:MM:SS format - i.e. like this, in a string: …
首先,我不完全确定这是否是发布此内容的正确位置,因为它可能会出现在更加统计数据的论坛中.但是,由于我打算用R实现这个,我认为最好在这里发布.如果我错了,请道歉.
所以,我想要做的是以下内容.我想模拟总共250,000个观测值的数据,根据经验数据(离散)得出的核密度估计值分配连续(非整数)值,原始值范围从-5到+5.这是我想要使用的分布图.
对我来说非常重要的是我不会根据离散概率模拟新数据,而是连续模拟新数据,因为一个值可以说是2.89而不是3或2是非常重要的.所以新值将基于图中描绘的概率.模拟数据中最常见的值约为+2,而-4和+5附近的值则相当罕见.
我已经做了很多关于在R中模拟数据以及内核密度估计如何工作的阅读,但我真的没有向前发展.所以我的问题基本上需要两个步骤 - 我如何模拟数据(1)以及如何使用这个特定的概率分布模拟数据(2)?
在此先感谢,我希望你们可以帮助我解决这个问题.
我在 R 中有一个 table 对象。它看起来有点像这样:
2422 2581 3363
16566 0 1 0
16568 0 2 0
16598 0 1 0
16627 0 1 0
16683 0 1 0
16701 0 1 0
16740 0 1 0
16741 0 1 0
Run Code Online (Sandbox Code Playgroud)
我想将它转换为一个数据框,这个数据框应该有4 个变量,而不是 3 个。换句话说,第一列16566, 16568,等应该是一个变量 - 我们称之为 ID。其他变量应该是2422, 2581, 3363列。
我试过了
as.data.frame() ,
as.data.frame.matrix()
但两个函数都以某种方式吞下了第一列。
在此先感谢您的帮助!
我遇到了一个问题,我确信它的修复非常简单,但我一直在寻找大约一个小时的答案,似乎无法解决问题.
我有一个字符向量,其数据看起来有点像这样:
[5] "Toronto, ON" "Manchester, UK"
[7] "New York City, NY" "Newark, NJ"
[9] "Melbourne" "Los Angeles, CA"
[11] "New York, USA" "Liverpool, England"
[13] "Fort Collins, CO" "London, UK"
[15] "New York, NY"
Run Code Online (Sandbox Code Playgroud)
基本上我想摆脱2位或更短的所有字符元素,以便数据可以如下所示:
[5] "Toronto, " "Manchester, "
[7] "New York City, " "Newark, "
[9] "Melbourne" "Los Angeles, "
[11] "New York, USA" "Liverpool, England"
[13] "Fort Collins, " "London, "
[15] "New York, "
Run Code Online (Sandbox Code Playgroud)
我知道如何摆脱的逗号.正如我所说的,我确信这非常简单,任何帮助都会非常感激.谢谢!