当我在远程数据库上尝试一些代码时,收到以下错误消息Postgres。
当数据帧位于本地时,以下伪复制代码可以很好地工作,但当它们很远时则不行。
library(tidyverse)
library(dbplyr)
library(RPostgres)
event <- tibble(id = c("00_1", "00_2", "00_3", "00_4", "00_5", "00_6", "00_7"),
type_id = c("A", "B", "C", "B", "A", "B", "C"))
detail <- tibble(id = c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L),
event_id = c("00_1", "00_1", "00_2", "00_2", "00_3", "00_4", "00_4", "00_5", "00_6", "00_6", "00_7", "00_8"),
type_id = c(3L, 4L, 6L, 7L, 2L, 6L, 3L, 2L, 6L, 5L, 2L, 1L))
event_f <- event %>%
mutate(new_variable = id %in% (detail %>%
filter(type_id == 6) %>%
pull(event_id))) %>%
collect()
Run Code Online (Sandbox Code Playgroud)
Error in UseMethod("escape") : no applicable method for 'escape' applied to an object of class "c('tbl_PqConnection', 'tbl_dbi', 'tbl_sql', 'tbl_lazy', 'tbl')"
该问题很可能是由嵌套 dplyr 查询引起的。这里有两种可能性:
dbplyr 无法将您的查询转换为 SQL,
dbplyr 会翻译您的查询,但它不是有效的 SQL。
dbplyr 尝试将每组命令转换为 SQL。验证这一点的一种方法是使用该函数show_query()。
例如R命令:
my_table %>% mutate(new_col = 2 * old_col + id) %>% select(new_col, id) %>% show_query()
Run Code Online (Sandbox Code Playgroud)
将返回类似于以下 SQL 命令的内容:
SELECT 2 * old_col + id AS new_col, id
FROM database.my_table
Run Code Online (Sandbox Code Playgroud)
仅当可以将 R 转换为 SQL 时才会发生这种情况。所以:
如果show_query返回 SQL,您应该检查 SQL 以确定错误所在并调整 R 命令来更正此问题
如果show_query不返回或给出错误,则 dbplyr 无法翻译您的查询,并且需要对其进行重组。
预计问题是由嵌套的 dplyr 命令引起的(detail %>% filter %>% pull),我建议将其替换为 semi_join,如下所示:
detail_f <- detail %>%
filter(type_id == 6)
event_f <- event %>%
semi_join(detail_f, by = c("id" = "type_id")) %>%
collect()
Run Code Online (Sandbox Code Playgroud)
如果您不熟悉半连接,您可能会发现这篇文章很有帮助。R 还支持使用反连接。
编辑:误读了您的初始查询。
当您想要在输出表中添加存在/不存在的指示符时event_id,您可能可以避免半连接或反连接。也许像下面这样:
detail_f <- detail %>%
filter(type_id == 6) %>%
select(id_to_compare = event_id) %>%
mutate(new_variable = 1)
event_f <- event %>%
left_join(detail_f, by = c("id" = "id_to_compare")) %>%
mutate(new_variable = ifelse(is.na(new_variable), 0, new_variable) %>%
collect()
Run Code Online (Sandbox Code Playgroud)
注意,我在这里使用了 0 & 1 而不是FALSE& TRUE,因为某些版本的 SQL 不像 R 那样容易处理这些。