小编Gee*_*eet的帖子

如何仅使用 Python 将 tar.gz 文件转换为 zip？

有人有仅使用 Python 代码将 tar.gz 文件转换为 zip 的代码吗？我遇到了 tar.gz 的许多问题，如如何使用带有 gzip 压缩选项的 pandas read_csv 读取 tar.gz 文件？

python zip tar

Gee*_*eet

2017 05-23

4
推荐指数

1
解决办法

8525
查看次数

如何在没有连接的情况下读取Python数据帧中的数据？

我想以块的形式将文件f(文件大小:85GB)读取到数据帧.建议使用以下代码.

chunksize = 5
TextFileReader = pd.read_csv(f, chunksize=chunksize)

Run Code Online (Sandbox Code Playgroud)

但是,这段代码给了我TextFileReader,而不是dataframe.此外,由于内存限制,我不想连接这些块以将TextFileReader转换为dataframe.请指教.

python csv chunks dataframe pandas

Gee*_*eet

2016 09-09

4
推荐指数

1
解决办法

9355
查看次数

sparkr 数据块错误：打开的设备太多

我sparkr在 Databricks 上使用了简单的数据操作。代码在一分钟前工作得很好，突然我开始收到以下错误：

png(fileName, width = plotWidth, height = plotHeight, pointsize = plotPointSize, 中的错误：打开的设备太多

即使我使用，例如：

mtcars %>% select(mpg)

Run Code Online (Sandbox Code Playgroud)

我没有做任何情节。解决办法是什么？

r apache-spark sparkr databricks

Gee*_*eet

2018 07-26

4
推荐指数

1
解决办法

1378
查看次数

使用 ALTER TABLE 和 UPDATE 在数据库中创建变量

我有一个 50GB SQLite 数据库文件，我想计算并添加新变量。您可以利用Moody_Mudskipper 的功能或使用ALTER TABLE 和 UPDATE 的功能来创建变量而不是整个表吗？

library(dbplyr)
    library(DBI)
    con <- DBI::dbConnect(RSQLite::SQLite(), path = ":memory:")
    copy_to(con, head(iris,3),"iris")

create <- function(data,name){
   DBI::dbSendQuery(data$src$con,
                    paste("CREATE TABLE", name,"AS", dbplyr::sql_render(data)))
                             }

tbl(con,"iris") %>% 
   mutate(Sepal.Area= Sepal.Length * Sepal.Width) %>% 
   create("iris_2")

Run Code Online (Sandbox Code Playgroud)

r dplyr rsqlite r-dbi dbplyr

Gee*_*eet

lucky-day

3
推荐指数

1
解决办法

1365
查看次数

dplyr替换多个变量中的值

我需要用80英寸的气缸，齿轮和碳水化合物色谱柱替换非4色谱柱。我尝试了以下操作，但是不起作用。

mtcars %>% mutate_at(vars(cyl, gear, carb), replace(which(.!=4), 80))

Run Code Online (Sandbox Code Playgroud)

它引发以下错误：

Error in replace(which(. != 4), 80) : 
  argument "values" is missing, with no default

Run Code Online (Sandbox Code Playgroud)

我在这里想念什么？

r stringr dplyr magrittr

Gee*_*eet

2018 05-31

2
推荐指数

1
解决办法

2267
查看次数

Purrr：哪个嵌套数据框遇到了错误？

这是一个嵌套数据。

df1 <- tibble::tribble(
   ~A,        ~B,  ~group,
   4L,         1L,  "A",
   7L,         4L,  "A",
  NA_integer_, 1L,  "B",
  NA_integer_, 10L, "B")

df2 <- df1 %>% group_by(group) %>% nest()

Run Code Online (Sandbox Code Playgroud)

我需要使用 purrr:map 运行 lm。

map(df2$data, ~lm(A~B, data=.x))

Run Code Online (Sandbox Code Playgroud)

找出哪些嵌套数据遇到错误的最佳方法是什么，即我如何知道 B 组有问题。

你能建议一个可能或安全地使用 purrr 的解决方案吗？

r purrr tidyverse

Gee*_*eet

lucky-day

2
推荐指数

1
解决办法

143
查看次数

使用查找向量替换变量中的字符串

我有一个带有字符变量的数据帧df以及fromvec和tovec.

df <- tibble(var = c("A", "B", "C", "a", "E", "D", "b"))

fromvec <- c("A", "B", "C")

tovec <- c("X", "Y", "Z")

Run Code Online (Sandbox Code Playgroud)

在fromvec中使用字符串,在df中检查它们,然后用tovec中的相应字符串替换它们,以便df中的"A"替换为"X","B"替换为"Y",依此类推以获得desired_df.

desired_df <- tibble(var = c("X", "Y", "Z", "X", "E", "D", "Y"))

Run Code Online (Sandbox Code Playgroud)

我试过跟随,但没有得到预期的结果!

from_vec <- paste(fromvec, collapse="|") 
to_vec <- paste(tovec, collapse="|") 

undesired_df <- df %>% 
  mutate(var = str_replace(str_to_upper(var), from_vec, to_vec))

Run Code Online (Sandbox Code Playgroud)

即这个

tibble(var = c("X|Y|Z", "X|Y|Z", "X|Y|Z", "X|Y|Z", "E", "D", "X|Y|Z"))

Run Code Online (Sandbox Code Playgroud)

请帮我拿到desired_df.

r stringr dplyr tidyverse

Gee*_*eet

2018 10-08

2
推荐指数

1
解决办法

97
查看次数

nCr中r的所有可能值的组合

这是我的矢量:

vec <- c("A", "B", "C")

Run Code Online (Sandbox Code Playgroud)

而且,我希望获得vec的所有7种组合.

desired_output <- tibble( ~A, ~B, ~C,
                           1,  0,  0,
                           0,  1,  0,
                           0,  0,  1,
                           1,  1,  0,
                           1,  0,  1,
                           0,  1,  1,
                           1,  1,  1)

Run Code Online (Sandbox Code Playgroud)

我尝试了以下方法:

#install.packages("gtools")
library(gtools)
r <- c(1,2, 3)
df1 <- purrr::map(r, ~combinations(3,.x,vec))
df2 <- per %>% map_dfr(~data.frame(.x))

Run Code Online (Sandbox Code Playgroud)

但无法获得理想的结果.你能建议一个解决方案,特别是在vec中有不同数量的元素吗？

Gee*_*eet

2018 08-21

1
推荐指数

1
解决办法

84
查看次数

如何使用不匹配的日期 pivot_long 对 date-var 组合？

这是我的玩具数据。

    df <- tibble::tribble(
    ~date1,      ~A Equity,  ~date2,          ~B Equity, ~date3,     ~C Equity,
    "1/29/2016",        35,  "10/31/2017",     67,       NA_character_,  NA_real_,
    "2/29/2016",        40,  "11/30/2017",     31,       NA_character_,  NA_real_,
    NA_character_,NA_real_,  "12/29/2017",     56,       NA_character_,  NA_real_)

Run Code Online (Sandbox Code Playgroud)

真正的有 1000 多列和更多的日期。

我想加长数据，以便所需的输出只有日期、变量和值列，如下所示：

desired_df <- tibble::tribble(
         ~date,   ~var,  ~value,
   "1/29/2016",  "A",      35,
   "2/29/2016",  "A",      40,
  "10/31/2017",  "B",      67,
  "11/30/2017",  "B",      31,
  "12/29/2017",  "B",      56)

Run Code Online (Sandbox Code Playgroud)

我试过这个，但没有得到想要的结果：

df2 <- df %>% 
  pivot_longer(cols = contains("date"), names_to = "dates", values_to = "date") %>% 
  pivot_longer (cols = contains("Equity"), names_to = "var", values_to = "value") …

Run Code Online (Sandbox Code Playgroud)

r dplyr tidyr purrr

Gee*_*eet

2020 04-03

1
推荐指数

1
解决办法

136
查看次数

将sql数据表转换为sparklyr数据框

我将 data.csv 上传到 Microsoft Azure 存储资源管理器。然后复制url并在databricks中创建一个表。

%sql 
DROP TABLE If EXISTS data; 
CREATE TABLE IF NOT EXISTS data 
USING CSV 
OPTIONS (header "true", inferSchema "true") 
LOCATION "url/data.csv"

Run Code Online (Sandbox Code Playgroud)

现在我想使用sparklyr来操作“数据”。

我应该如何将上述数据转换为 Sparklyr 数据框以充分利用 Sparklyr 的潜力？

r databricks sparklyr tidyverse

Gee*_*eet

2018 07-21

0
推荐指数

1
解决办法

1936
查看次数

标签统计

r ×8

dplyr ×4

tidyverse ×3

databricks ×2

purrr ×2

python ×2

stringr ×2

apache-spark ×1

chunks ×1

csv ×1

dataframe ×1

dbplyr ×1

magrittr ×1

pandas ×1

r-dbi ×1

rsqlite ×1

sparklyr ×1

sparkr ×1

tar ×1

tidyr ×1

zip ×1

标签 统计

小编Gee_eet的帖子

标签统计