我有一个非常大的data.table,并且一直试图返回每列中特定默认值计数的列表或向量(它们每列不同).它是这样组织的:
set.seed(1);
DT = as.data.table(matrix(sample(1:100, 100*100, TRUE), 100, 100))
#DT output below
param1 param2 param3 ... param100 #column names
1 1 1 ... 1 #first row = default values
. #elems in remaining rows are random
. # a param can be set to non default
1 666 1 ... 143 # or default values within a column
.
.
10000 1 1 ... 420
Run Code Online (Sandbox Code Playgroud)
我很想知道data.table的做法是什么?我一直在筛选过去的文档,并试图避免使用内存和计算密集的循环和方法(我试图使用过滤器,lapply和分组,没有运气).
我理想地寻找的一个类似的例子是计算每列存在的非NA值的数量:
count <- colSums(!is.na(DT))
#which outputs the following:
print(count)
param1 param2 param3 ... param177 …Run Code Online (Sandbox Code Playgroud)