小编Gee*_*eet的帖子

如何仅使用 Python 将 tar.gz 文件转换为 zip?

有人有仅使用 Python 代码将 tar.gz 文件转换为 zip 的代码吗?我遇到了 tar.gz 的许多问题,如如何使用带有 gzip 压缩选项的 pandas read_csv 读取 tar.gz 文件?

python zip tar

4
推荐指数
1
解决办法
8525
查看次数

如何在没有连接的情况下读取Python数据帧中的数据?

我想以块的形式将文件f(文件大小:85GB)读取到数据帧.建议使用以下代码.

chunksize = 5
TextFileReader = pd.read_csv(f, chunksize=chunksize)
Run Code Online (Sandbox Code Playgroud)

但是,这段代码给了我TextFileReader,而不是dataframe.此外,由于内存限制,我不想连接这些块以将TextFileReader转换为dataframe.请指教.

python csv chunks dataframe pandas

4
推荐指数
1
解决办法
9355
查看次数

sparkr 数据块错误:打开的设备太多

sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好,突然我开始收到以下错误:

png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误:打开的设备太多

即使我使用,例如:

mtcars %>% select(mpg)
Run Code Online (Sandbox Code Playgroud)

我没有做任何情节。解决办法是什么?

r apache-spark sparkr databricks

4
推荐指数
1
解决办法
1378
查看次数

使用 ALTER TABLE 和 UPDATE 在数据库中创建变量

我有一个 50GB SQLite 数据库文件,我想计算并添加新变量。您可以利用Moody_Mudskipper 的功能或使用ALTER TABLE 和 UPDATE 的功能来创建变量而不是整个表吗?

library(dbplyr)
    library(DBI)
    con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:")
    copy_to(con, head(iris,3),"iris")

create <- function(data,name){
   DBI::dbSendQuery(data$src$con,
                    paste("CREATE TABLE", name,"AS", dbplyr::sql_render(data)))
                             }

tbl(con,"iris") %>% 
   mutate(Sepal.Area= Sepal.Length * Sepal.Width) %>% 
   create("iris_2")
Run Code Online (Sandbox Code Playgroud)

r dplyr rsqlite r-dbi dbplyr

3
推荐指数
1
解决办法
1365
查看次数

dplyr替换多个变量中的值

我需要用80英寸的气缸,齿轮和碳水化合物色谱柱替换非4色谱柱。我尝试了以下操作,但是不起作用。

mtcars %>% mutate_at(vars(cyl, gear, carb), replace(which(.!=4), 80))
Run Code Online (Sandbox Code Playgroud)

它引发以下错误:

Error in replace(which(. != 4), 80) : 
  argument "values" is missing, with no default
Run Code Online (Sandbox Code Playgroud)

我在这里想念什么?

r stringr dplyr magrittr

2
推荐指数
1
解决办法
2267
查看次数

Purrr:哪个嵌套数据框遇到了错误?

这是一个嵌套数据。

df1 <- tibble::tribble(
   ~A,        ~B,  ~group,
   4L,         1L,  "A",
   7L,         4L,  "A",
  NA_integer_, 1L,  "B",
  NA_integer_, 10L, "B")

df2 <- df1 %>% group_by(group) %>% nest()
Run Code Online (Sandbox Code Playgroud)

我需要使用 purrr:map 运行 lm。

map(df2$data, ~lm(A~B, data=.x))
Run Code Online (Sandbox Code Playgroud)

找出哪些嵌套数据遇到错误的最佳方法是什么,即我如何知道 B 组有问题。

你能建议一个可能或安全地使用 purrr 的解决方案吗?

r purrr tidyverse

2
推荐指数
1
解决办法
143
查看次数

使用查找向量替换变量中的字符串

我有一个带有字符变量的数据帧df以及fromvec和tovec.

df <- tibble(var = c("A", "B", "C", "a", "E", "D", "b"))

fromvec <- c("A", "B", "C")

tovec <- c("X", "Y", "Z")
Run Code Online (Sandbox Code Playgroud)

在fromvec中使用字符串,在df中检查它们,然后用tovec中的相应字符串替换它们,以便df中的"A"替换为"X","B"替换为"Y",依此类推以获得desired_df.

desired_df <- tibble(var = c("X", "Y", "Z", "X", "E", "D", "Y"))
Run Code Online (Sandbox Code Playgroud)

我试过跟随,但没有得到预期的结果!

from_vec <- paste(fromvec, collapse="|") 
to_vec <- paste(tovec, collapse="|") 

undesired_df <- df %>% 
  mutate(var = str_replace(str_to_upper(var), from_vec, to_vec))
Run Code Online (Sandbox Code Playgroud)

即这个

tibble(var = c("X|Y|Z", "X|Y|Z", "X|Y|Z", "X|Y|Z", "E", "D", "X|Y|Z"))
Run Code Online (Sandbox Code Playgroud)

请帮我拿到desired_df.

r stringr dplyr tidyverse

2
推荐指数
1
解决办法
97
查看次数

nCr中r的所有可能值的组合

这是我的矢量:

vec <- c("A", "B", "C")
Run Code Online (Sandbox Code Playgroud)

而且,我希望获得vec的所有7种组合.

desired_output <- tibble( ~A, ~B, ~C,
                           1,  0,  0,
                           0,  1,  0,
                           0,  0,  1,
                           1,  1,  0,
                           1,  0,  1,
                           0,  1,  1,
                           1,  1,  1)
Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法:

#install.packages("gtools")
library(gtools)
r <- c(1,2, 3)
df1 <- purrr::map(r, ~combinations(3,.x,vec))
df2 <- per %>% map_dfr(~data.frame(.x))
Run Code Online (Sandbox Code Playgroud)

但无法获得理想的结果.你能建议一个解决方案,特别是在vec中有不同数量的元素吗?

r

1
推荐指数
1
解决办法
84
查看次数

如何使用不匹配的日期 pivot_long 对 date-var 组合?

这是我的玩具数据。

    df <- tibble::tribble(
    ~date1,      ~A Equity,  ~date2,          ~B Equity, ~date3,     ~C Equity,
    "1/29/2016",        35,  "10/31/2017",     67,       NA_character_,  NA_real_,
    "2/29/2016",        40,  "11/30/2017",     31,       NA_character_,  NA_real_,
    NA_character_,NA_real_,  "12/29/2017",     56,       NA_character_,  NA_real_)
Run Code Online (Sandbox Code Playgroud)

真正的有 1000 多列和更多的日期。

我想加长数据,以便所需的输出只有日期、变量和值列,如下所示:

desired_df <- tibble::tribble(
         ~date,   ~var,  ~value,
   "1/29/2016",  "A",      35,
   "2/29/2016",  "A",      40,
  "10/31/2017",  "B",      67,
  "11/30/2017",  "B",      31,
  "12/29/2017",  "B",      56)
Run Code Online (Sandbox Code Playgroud)

我试过这个,但没有得到想要的结果:

df2 <- df %>% 
  pivot_longer(cols = contains("date"), names_to = "dates", values_to = "date") %>% 
  pivot_longer (cols = contains("Equity"), names_to = "var", values_to = "value") …
Run Code Online (Sandbox Code Playgroud)

r dplyr tidyr purrr

1
推荐指数
1
解决办法
136
查看次数

将sql数据表转换为sparklyr数据框

我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。

%sql 
DROP TABLE If EXISTS data; 
CREATE TABLE IF NOT EXISTS data 
USING CSV 
OPTIONS (header "true", inferSchema "true") 
LOCATION "url/data.csv" 
Run Code Online (Sandbox Code Playgroud)

现在我想使用sparklyr来操作“数据”。

我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力?

r databricks sparklyr tidyverse

0
推荐指数
1
解决办法
1936
查看次数