有很多问题涉及重复观察的主题,但到目前为止,没有一个对我有用。
在这个问题中,我学习了如何从向量中选择所有重复项。
# vector
id <- c("a","b","b","c","c","c","d","d","d","d")
#To return ALL duplicated values by specifying fromLast argument:
id[duplicated(id) | duplicated(id, fromLast=TRUE)]
## [1] "b" "b" "c" "c" "c" "d" "d" "d" "d"
#Yet another way to return ALL duplicated values, using %in% operator:
id[id %in% unique(id[duplicated(id)])]
## [1] "b" "b" "c" "c" "c" "d" "d" "d" "d"
Run Code Online (Sandbox Code Playgroud)
现在有一个像这样的数据框:
dat <- data.frame(x = c(1, 1, 2, 2, 3),
y = c(5, 5, 6, 7, 8),
z = c('a', 'b', 'c', …Run Code Online (Sandbox Code Playgroud) 我想制作一个简单的直方图,其中涉及两个向量,
values <- c(1,2,3,4,5,6,7,8)
freq <- c(4,6,4,4,3,2,1,1)
df <- data.frame(values,freq)
Run Code Online (Sandbox Code Playgroud)
现在由data.farame df以下值组成:
values freq
1 4
2 6
3 4
4 4
5 3
6 2
7 1
8 1
Run Code Online (Sandbox Code Playgroud)
现在我想画一个简单的直方图,其中values在x轴上,freq在y轴上。我正在尝试使用该hist函数,但无法给出两个变量。如何根据这些数据制作简单的直方图?
我的数据看起来像这样:
sources
1: Jana’s iPhone
2: Richard's iPhone 6
3: Denise's
4: Sara’s iPhone
5: Jeff’s Apple Watch
6: BLAIR’s Apple Watch
7: Sunshine's iPhone
8: Brian's iPhone
9: Jonathan’s Apple Watch
10: patricia’s Apple Watch
Run Code Online (Sandbox Code Playgroud)
我正在尝试替换任何包含iPhone说的字符串iPhone.我怎样才能做到这一点?
我在sources包含一个名为的列的数据表上尝试了以下内容sources:
sources[length(grep("iPhone", sources)) > 0, sources:= "iPhone"]
Run Code Online (Sandbox Code Playgroud)
但是这会将所有行转换为"iPhone",即使该行最初不包含带有"iPhone"的字符串.我猜这是因为grep或length没有矢量化,所以我最终选择了所有行.那么我的问题就是如何识别包含子字符串的行?
我想创建一个新的 colume 来表示哪个日期在同一周。
data.table DATE_SET 包含日期信息,例如:
DATA_SET<- data.table(transday = seq(from = (Sys.Date()-64), to = Sys.Date(), by = 1))
Run Code Online (Sandbox Code Playgroud)
例如,'2017-03-01'和'2017-03-02'在同一周,'2017-03-01'和'2017-03-08'都是星期三,但它们不在同一周.
如果“2016-01-01”是2016年的第一周,“2017-01-01”是2017年的第一周,则值为1,但它们不在同一周。所以我想要独特的价值来指定“同一周”。
我正在 R 中学习 data.table。这个连接让我困惑了几个小时。有人可以帮我理解吗?
library(data.table)
DT = data.table(x = rep(c("b", "a", "c"), each = 3),
y = c(1, 3, 6),
v = 1:9)
DT
#> x y v
# 1: b 1 1
# 2: b 3 2
# 3: b 6 3
# 4: a 1 4
# 5: a 3 5
# 6: a 6 6
# 7: c 1 7
# 8: c 3 8
# 9: c 6 9
X = data.table(x = c("c", "b"),
v …Run Code Online (Sandbox Code Playgroud) 以下是原件 data.frame
ID Date Type
123 2011-Jan A
123 2011-Jan A
123 2011-Jan A
123 2011-Jan B
123 2011-Jan B
123 2011-Jan C
123 2011-Mar X
123 2011-Mar X
345 2011-Jan A
345 2011-Jan A
345 2011-Jan X
345 2011-Jan X
456 2011-Mar Y
789 2011-Mar z
Run Code Online (Sandbox Code Playgroud)
所需的输出有5个新列,它们将分别具有列类型(Type_1)的第1个最大计数,列类型的第2个最大计数(Type_2).以下是所需的输出
ID Date Type_1 Type_2 Type_3 Type_4 Type_5
123 2011-Jan A B C NA NA
123 2011-Mar X NA NA NA NA
345 2011-Jan A NA NA NA NA …Run Code Online (Sandbox Code Playgroud)