这无疑是一个非常简单的问题,我无法找到答案.
在R中,我有一个包含2列的文件:1列分类数据名称,第二列是计数列(每个类别的计数).使用一个小数据集,我会使用'reshape'和'untable'函数来制作1列并以这种方式进行分析.问题是,如何使用大型数据集处理这个问题?
在这种情况下,我的数据很有意义,而且不会起作用.
我的问题是,如何告诉R使用以下内容作为分发数据:
Cat Count
A 5
B 7
C 1
Run Code Online (Sandbox Code Playgroud)
也就是说,我给它一个直方图作为输入,让R计算出它意味着在计算有关数据的其他信息时,有5个A,7个B和1个C.
所需的输入而不是输出将是R以了解数据将如下所示,
A A A A B B B B B B C C.
在合理大小的数据中,我可以自己做,但是当数据非常大时你会怎么做?
编辑
所有计数的总和为262,916,849.
就其用途而言:
这是新数据,试图了解这些新数据与其他数据之间的相关性.需要处理线性回归和混合模型.
我认为你所要求的是重塑一个类别的数据框并计入一个观察向量,其中重复类别.这是一种方式:
dat <- data.frame(Cat=LETTERS[1:3],Count=c(5,7,1))
# Cat Count
#1 A 5
#2 B 7
#3 C 1
rep.int(dat$Cat,times=dat$Count)
# [1] A A A A A B B B B B B B C
#Levels: A B C
Run Code Online (Sandbox Code Playgroud)