小编ctb*_*own的帖子

Avro vs. Parquet

我打算在hadoop相关项目中使用hadoop文件格式之一.我知道实木复合地板对于基于列的查询是有效的,而avro可用于全扫描或当我们需要所有列数据时!

在我继续选择其中一种文件格式之前,我想了解一种文件格式的缺点/缺点.任何人都可以用简单的语言向我解释一下吗？

hadoop avro parquet

Abh*_*hek

2018 07-31

82
推荐指数

6
解决办法

7万
查看次数

用于查找与向量中的唯一值相关联的索引的高效R代码

假设我有矢量vec <- c("D","B","B","C","C").

我的目标是最终得到一个维度列表length(unique(vec)),其中每个i列表返回一个索引向量,表示unique(vec)[i]in 的位置vec.

例如,此列表vec将返回:

exampleList <- list()
exampleList[[1]] <- c(1) #Since "D" is the first element
exampleList[[2]] <- c(2,3) #Since "B" is the 2nd/3rd element.
exampleList[[3]] <- c(4,5) #Since "C" is the 4th/5th element.

Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法,但它太慢了.我的例子很大,所以我需要更快的代码:

vec <- c("D","B","B","C","C")
uniques <- unique(vec)
exampleList <- lapply(1:3,function(i) {
    which(vec==uniques[i])
})
exampleList

Run Code Online (Sandbox Code Playgroud)

r list vector unique data.table

use*_*361

2014 04-11

8
推荐指数

3
解决办法

4444
查看次数

是否有一个包或函数可以对向量的模式/类型/类进行合理的猜测？

R 有一些自动类型检测吗？也许在 CRAN 包中？

具体来说，当 R 加载数据（从文本文件）时，如果 R 能够对类型做出一些合理的假设和/或自动强制它们，那就太好了。

我知道你可能会这样做：

try( as( x, "..." ) )

Run Code Online (Sandbox Code Playgroud)

并尝试各种类型。我认为有更好的方法。

另外，请注意，我并不打算强制进入对象。基本数据类型都是：数字、整数、字符、POSIXct、...

ctb*_*own

2019 03-04

5
推荐指数

1
解决办法

471
查看次数

标签统计

r ×2

avro ×1

data.table ×1

hadoop ×1

list ×1

parquet ×1

unique ×1

vector ×1

Avro vs. Parquet

用于查找与向量中的唯一值相关联的索引的高效R代码

是否有一个包或函数可以对向量的模式/类型/类进行合理的猜测？

标签 统计

小编ctb_own的帖子

标签统计