Tim*_*Tim 5 r dplyr apache-spark sparklyr
在RI中有一个spark连接,一个DataFrame为ddf
。
library(sparklyr)
library(tidyverse)
sc <- spark_connect(master = "foo", version = "2.0.2")
ddf <- spark_read_parquet(sc, name='test', path="hdfs://localhost:9001/foo_parquet")
Run Code Online (Sandbox Code Playgroud)
由于行数不多,因此我想将其存储到内存中以应用一些机器学习魔术。但是,似乎无法收集某些行。
df <- ddf %>% head %>% collect # works fine
df <- ddf %>% collect # doesn't work
Run Code Online (Sandbox Code Playgroud)
第二行代码将引发Error in rawToChar(raw) : embedded nul in string:
错误。失败的列/行具有一些字符串数据。由于head %>% collect
工作表明某些行似乎失败,而其他行则按预期工作。
我如何解决此错误,有没有办法清除该错误?该错误实际上是什么意思?
归档时间: |
|
查看次数: |
451 次 |
最近记录: |