有人有仅使用 Python 代码将 tar.gz 文件转换为 zip 的代码吗?我遇到了 tar.gz 的许多问题,如如何使用带有 gzip 压缩选项的 pandas read_csv 读取 tar.gz 文件?
我想以块的形式将文件f(文件大小:85GB)读取到数据帧.建议使用以下代码.
chunksize = 5
TextFileReader = pd.read_csv(f, chunksize=chunksize)
Run Code Online (Sandbox Code Playgroud)
但是,这段代码给了我TextFileReader,而不是dataframe.此外,由于内存限制,我不想连接这些块以将TextFileReader转换为dataframe.请指教.
我sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好,突然我开始收到以下错误:
png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误:打开的设备太多
即使我使用,例如:
mtcars %>% select(mpg)
Run Code Online (Sandbox Code Playgroud)
我没有做任何情节。解决办法是什么?
我有一个 50GB SQLite 数据库文件,我想计算并添加新变量。您可以利用Moody_Mudskipper 的功能或使用ALTER TABLE 和 UPDATE 的功能来创建变量而不是整个表吗?
library(dbplyr)
library(DBI)
con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:")
copy_to(con, head(iris,3),"iris")
create <- function(data,name){
DBI::dbSendQuery(data$src$con,
paste("CREATE TABLE", name,"AS", dbplyr::sql_render(data)))
}
tbl(con,"iris") %>%
mutate(Sepal.Area= Sepal.Length * Sepal.Width) %>%
create("iris_2")
Run Code Online (Sandbox Code Playgroud) 我需要用80英寸的气缸,齿轮和碳水化合物色谱柱替换非4色谱柱。我尝试了以下操作,但是不起作用。
mtcars %>% mutate_at(vars(cyl, gear, carb), replace(which(.!=4), 80))
Run Code Online (Sandbox Code Playgroud)
它引发以下错误:
Error in replace(which(. != 4), 80) :
argument "values" is missing, with no default
Run Code Online (Sandbox Code Playgroud)
我在这里想念什么?
这是一个嵌套数据。
df1 <- tibble::tribble(
~A, ~B, ~group,
4L, 1L, "A",
7L, 4L, "A",
NA_integer_, 1L, "B",
NA_integer_, 10L, "B")
df2 <- df1 %>% group_by(group) %>% nest()
Run Code Online (Sandbox Code Playgroud)
我需要使用 purrr:map 运行 lm。
map(df2$data, ~lm(A~B, data=.x))
Run Code Online (Sandbox Code Playgroud)
找出哪些嵌套数据遇到错误的最佳方法是什么,即我如何知道 B 组有问题。
你能建议一个可能或安全地使用 purrr 的解决方案吗?
我有一个带有字符变量的数据帧df以及fromvec和tovec.
df <- tibble(var = c("A", "B", "C", "a", "E", "D", "b"))
fromvec <- c("A", "B", "C")
tovec <- c("X", "Y", "Z")
Run Code Online (Sandbox Code Playgroud)
在fromvec中使用字符串,在df中检查它们,然后用tovec中的相应字符串替换它们,以便df中的"A"替换为"X","B"替换为"Y",依此类推以获得desired_df.
desired_df <- tibble(var = c("X", "Y", "Z", "X", "E", "D", "Y"))
Run Code Online (Sandbox Code Playgroud)
我试过跟随,但没有得到预期的结果!
from_vec <- paste(fromvec, collapse="|")
to_vec <- paste(tovec, collapse="|")
undesired_df <- df %>%
mutate(var = str_replace(str_to_upper(var), from_vec, to_vec))
Run Code Online (Sandbox Code Playgroud)
即这个
tibble(var = c("X|Y|Z", "X|Y|Z", "X|Y|Z", "X|Y|Z", "E", "D", "X|Y|Z"))
Run Code Online (Sandbox Code Playgroud)
请帮我拿到desired_df.
这是我的矢量:
vec <- c("A", "B", "C")
Run Code Online (Sandbox Code Playgroud)
而且,我希望获得vec的所有7种组合.
desired_output <- tibble( ~A, ~B, ~C,
1, 0, 0,
0, 1, 0,
0, 0, 1,
1, 1, 0,
1, 0, 1,
0, 1, 1,
1, 1, 1)
Run Code Online (Sandbox Code Playgroud)
我尝试了以下方法:
#install.packages("gtools")
library(gtools)
r <- c(1,2, 3)
df1 <- purrr::map(r, ~combinations(3,.x,vec))
df2 <- per %>% map_dfr(~data.frame(.x))
Run Code Online (Sandbox Code Playgroud)
但无法获得理想的结果.你能建议一个解决方案,特别是在vec中有不同数量的元素吗?
这是我的玩具数据。
df <- tibble::tribble(
~date1, ~A Equity, ~date2, ~B Equity, ~date3, ~C Equity,
"1/29/2016", 35, "10/31/2017", 67, NA_character_, NA_real_,
"2/29/2016", 40, "11/30/2017", 31, NA_character_, NA_real_,
NA_character_,NA_real_, "12/29/2017", 56, NA_character_, NA_real_)
Run Code Online (Sandbox Code Playgroud)
真正的有 1000 多列和更多的日期。
我想加长数据,以便所需的输出只有日期、变量和值列,如下所示:
desired_df <- tibble::tribble(
~date, ~var, ~value,
"1/29/2016", "A", 35,
"2/29/2016", "A", 40,
"10/31/2017", "B", 67,
"11/30/2017", "B", 31,
"12/29/2017", "B", 56)
Run Code Online (Sandbox Code Playgroud)
我试过这个,但没有得到想要的结果:
df2 <- df %>%
pivot_longer(cols = contains("date"), names_to = "dates", values_to = "date") %>%
pivot_longer (cols = contains("Equity"), names_to = "var", values_to = "value") …Run Code Online (Sandbox Code Playgroud) 我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。
%sql
DROP TABLE If EXISTS data;
CREATE TABLE IF NOT EXISTS data
USING CSV
OPTIONS (header "true", inferSchema "true")
LOCATION "url/data.csv"
Run Code Online (Sandbox Code Playgroud)
现在我想使用sparklyr来操作“数据”。
我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力?