我试图了解 cut 如何划分和创建间隔;尝试过?cut但无法弄清楚r 中的cut是如何工作的。
这是我的问题:
set.seed(111)
data1 <- seq(1,10, by=1)
data1
[1] 1 2 3 4 5 6 7 8 9 10
data1cut<- cut(data1, breaks = c(0,1,2,3,5,7,8,10), labels = FALSE)
data1cut
[1] 1 2 3 4 4 5 5 6 7 7
Run Code Online (Sandbox Code Playgroud)
1. 为什么data1cut结果中没有包含8,9,10 ?
2.为什么summary(data1)和summary(data1cut)产生不同的结果?
summary(data1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.00 3.25 5.50 5.50 7.75 10.00
summary(data1cut)
Min. 1st Qu. Median Mean 3rd Qu. …Run Code Online (Sandbox Code Playgroud) 我在这里和这里看到了如何返回每一行; 但我的问题不同.文件中的单独列提供有关要返回的第n个元素的详细信息; 根据小组不同而不同.以下是数据集的示例,其中Nth列提供要返回的行.也就是说,对于Id组a每3行和Id组b每4个一排.数据相当大,有几个Id小组.
Id TagNo Nth
a A-A-3 3
a A-A-1 3
a A-A-5 3
a A-A-2 3
a AX-45 3
a AX-33 3
b B-B-5 4
b B-B-4 4
b B-B-3 4
b BX-B2 4
Run Code Online (Sandbox Code Playgroud)
期望的输出:
Id TagNo Nth
a A-A-3 3
a A-A-2 3
b B-B-5 4
Run Code Online (Sandbox Code Playgroud)
谢谢您的帮助.
编辑:请注意我想从first每个第n项开始挑选; 这是第3 a和第4 b.对于组a,它将1st,4th, 7th …
这是我计划用来生成500个填充了随机数据的测试文件的脚本.
for((counter=1;counter<=500;counter++));
do
echo Creating file$counter;
dd bs=1M count=10 if=/dev/urandom of=file$counter;
done
Run Code Online (Sandbox Code Playgroud)
但我需要脚本做的是使这500个文件的大小可变,就像在1M和10M之间; 即,file1 = 1M,file2 = 10M,file3 = 9M等...
任何帮助?
以下是示例数据框的示例
data.frame1
col1 col2 col3 col4
1 2 3 4
2 3 4 4
Run Code Online (Sandbox Code Playgroud)
data.frame2
col5 col6 col7 col8
1 2 3 4
3 3 5 9
Run Code Online (Sandbox Code Playgroud)
data.frame3
col9 col10 col11
1 2 3
Run Code Online (Sandbox Code Playgroud)
期望的输出data.frame.append
col1 col2 col3 col4 col5 col6 col7 col8 col9 col10 col11
1 2 3 4 NA NA NA NA NA NA NA
2 3 4 4 NA NA NA NA NA NA NA
NA NA NA NA 1 2 3 4 NA NA NA
NA …Run Code Online (Sandbox Code Playgroud)