小编The*_*oat的帖子

从BigQuery表中删除重复的行

我有一个包含> 1M行数据和20多列的表.

在我的表格(tableX)中,我在一个特定列(troubleColumn)中识别出重复记录(~80k).

如果可能的话,我想保留原始表名并从我有问题的列中删除重复记录,否则我可以创建一个具有相同模式但没有重复项的新表(tableXfinal).

我不擅长SQL或任何其他编程语言,所以请原谅我的无知.

delete from Accidents.CleanedFilledCombined 
where Fixed_Accident_Index 
in(select Fixed_Accident_Index from Accidents.CleanedFilledCombined 
group by Fixed_Accident_Index 
having count(Fixed_Accident_Index) >1);

Run Code Online (Sandbox Code Playgroud)

distinct google-bigquery

The*_*oat

2016 04-17

29
推荐指数

4
解决办法

3万
查看次数

使用R中的read.csv跳过特定行

我希望在将文件导入R中的数据框时跳过我的csv文件的第1行和第3行.

在原始文件中,我的标题位于第2行.

使用read.csv中的skip参数我可以跳过第1行并将header参数设置为TRUE,我仍然在数据框中的原始文件中有第3行.

任何人都可以建议如何跳过R中的多个特定行,下面是我能够拼凑到一起的吗？

我可以将向量传递给skip参数,指定要忽略的确切行吗？

prach <- read.csv("RSRAN104_-_PRACH_Propagation_Delay-PLMN-day-rsran_RU50EP1_reports_RSRAN104_xml-2016_08_23-21_33_03__604.csv", header = TRUE, sep = ",", stringsAsFactors = FALSE, skip = 1)

Run Code Online (Sandbox Code Playgroud)

r read.csv

The*_*oat

lucky-day

21
推荐指数

1
解决办法

5万
查看次数

使用插入符号训练模型时,行搜索失败

我正在使用插入符号中的train函数来训练SVM,使用svmRadial内核进行二进制分类任务.

当我在我的数据上运行train函数时,我逐渐得到这些消息

line search fails -2.13865 -0.1759025 1.01927e-05 3.812143e-06 -5.240749e-08 -1.810113e-08 -6.03178e-13line search fails -0.7148131 0.1612894 2.32937e-05 3.518543e-06 -1.821269e-08 -1.37704e-08 -4.726926e-13

代码完成后(编译/运行？)我也收到了以下警告:

    > warnings()
Warning messages:
1: In method$predict(modelFit = modelFit, newdata = newdata,  ... :
  kernlab class prediction calculations failed; returning NAs
2: In method$prob(modelFit = modelFit, newdata = newdata,  ... :
  kernlab class probability calculations failed; returning NAs
3: In data.frame(..., check.names = FALSE) :
  row names were found from a short variable and have been discarded
4: …

Run Code Online (Sandbox Code Playgroud)

r machine-learning svm r-caret

The*_*oat

2018 11-28

7
推荐指数

1
解决办法

682
查看次数

测试 R 中的缺失值

我有一个时间序列数据集，其中有一些缺失值。我想估算缺失值，但我不确定哪种方法最合适，例如包中的线性、样条或 stine imputeTS。

为了完整起见，我想测试一下我的数据是否是 MCAR、MAR、NMAR。我有一个合理的想法，它是 MCAR，但我有兴趣进行测试。

str(wideRawDF)
'data.frame':   1343 obs. of  13 variables:
 $ Period.Start.Time: POSIXct, format: "2017-01-20 16:30:00" "2017-01-20 16:45:00" "2017-01-20 17:00:00" "2017-01-20 17:15:00" ...
 $ DO0182U09A3      : num  -102 -101 -101 -101 -101 ...
 $ DO0182U09B3      : num  -103.4 -102.8 -103.3 -95.9 -103 ...
 $ DO0182U09C3      : num  -103.9 -104.2 -103.9 -99.2 -104.1 ...
 $ DO0182U21A1      : num  -105 -105 -105 -104 -102 ...
 $ DO0182U21A2      : num  -105 -104 -105 -105 -105 ...
 $ DO0182U21A3      : …

Run Code Online (Sandbox Code Playgroud)

r missing-data imputation imputets

The*_*oat

2018 01-22

5
推荐指数

1
解决办法

2982
查看次数

使用 Docker 和 Vetiver 将 tidymodel 模型部署到 GCP

我正在尝试观看Julia Silge MLOps视频，其中她使用 Vetiver 和 Tidymodels 部署到 AWS Sagemaker，但是在 AWS 上花费了数百美元的账单后:( 我已转向 GCP，因为他们提供 300 美元的免费积分。

我正处于尝试创建 docker 映像以推送到 GCP 的阶段，但是当我运行时：

docker run --env-file C:/Users/John/Documents/.Renviron --rm -p 8000:8000 penguins

Run Code Online (Sandbox Code Playgroud)

我收到以下错误：

我有点困惑，因为我已将 .Renviron 设置为包含服务帐户 json 文件，如下所示：

根据 VonC 的回复，我添加了/path/in/container“/documents/”

在下面的屏幕截图中，我可以看到该路径/in/container已被推送到图像：

由于我可以运行gcs_list_buckets(projectId = "my-project-id")并查看我创建的存储桶，因此看起来好像我已完全连接到我的云环境。

经过几天的研究，我似乎必须提供环境变量的完整路径才能启用身份验证，我是否遗漏了什么？

r docker google-cloud-platform tidymodels vetiver

The*_*oat

2023 09-20

5
推荐指数

1
解决办法

214
查看次数

指定应用 read_csv 的列数

是否可以将列索引传递给 read_csv？

我将许多 CSV 文件传递给具有不同标题名称的 read_csv，而不是指定我希望使用列索引的名称。

这可能吗？

df.list <- lapply(myExcelCSV, read_csv, skip = headers2skip[i]-1)

Run Code Online (Sandbox Code Playgroud)

r lapply dplyr

The*_*oat

2019 09-28

4
推荐指数

1
解决办法

287
查看次数

从数据框中删除符合多个条件的行

我希望删除数据框中包含特定模式的行，并且如果可能的话，我希望使用 tidyverse 语法。

我希望删除第 1 列包含“cat”以及 col2:4 中任何一个包含以下任何单词的行：狗、狐狸或牛。对于此示例，将从原始数据中删除第 1 行和第 4 行。

这是一个示例数据集：

df <- data.frame(col1 = c("cat", "fox", "dog", "cat", "pig"),
                 col2 = c("lion", "tiger", "elephant", "dog", "cow"),
                 col3 = c("bird", "cow", "sheep", "fox", "dog"),
                 col4 = c("dog", "cat", "cat", "cow", "fox"))

Run Code Online (Sandbox Code Playgroud)

我尝试过多种不同的变体，但不断遇到问题。这是我的最新尝试：

filtered_df <- df %>%
  filter(!(animal1 == "cat" & !any(cowfoxdog <- across(animal2:animal4, ~ . %in% c("cow", "fox", "dog")))))

Run Code Online (Sandbox Code Playgroud)

这将返回以下错误：

Error in `filter()`:
! Problem while computing `..1 = !...`.
Caused by error in `FUN()`:
! only defined …

Run Code Online (Sandbox Code Playgroud)

r dplyr

The*_*oat

lucky-day

3
推荐指数

1
解决办法

147
查看次数

使用 ggplot 绘制多列的时间序列

我有一个数据框，其中包含一列时间序列数据和 9 个其他变量，每次都有信号强度值，见下文：

    head(RTWP_Columns)
    Period.Start.Time DU0362U09A3 DU0362U09B3 DU0362U09C3 DU0362U21A1 DU0362U21A2 DU0362U21B1 DU0362U21B2 DU0362U21C1
1 01.16.2017 00:00:00     -104.54     -106.43     -104.40     -104.48     -103.04     -104.50     -103.58     -104.10
2 01.16.2017 00:15:00     -104.98     -106.49     -104.48     -104.47     -103.40     -104.50     -103.81     -104.22
3 01.16.2017 00:30:00     -105.34     -106.45     -104.50     -104.50     -103.23     -104.50     -104.01     -104.26
4 01.16.2017 00:45:00     -105.30     -106.48     -104.48     -104.50     -103.38     -104.41     -104.10     -104.32
5 01.16.2017 01:00:00     -104.99     -106.49     -104.50     -104.50     -103.44     -104.50     -104.36     -104.24
6 01.16.2017 01:15:00     -105.33     -106.49     -104.49     -104.50     -103.82     -104.50     -104.39     -104.39
  DU0362U21C2 …

Run Code Online (Sandbox Code Playgroud)

r time-series ggplot2

The*_*oat

lucky-day

2
推荐指数

1
解决办法

6391
查看次数

在R中展平或取消列出数据框

我正在使用该Googleway软件包获取一堆lat长坐标的高程信息,其总共有954个.

我将调用分成3个单独的文件,但它们是列表格式,当我将它们转换为数据帧时,它们是嵌套的数据帧格式.我一直试图压扁文件并取消列出,但我没有成功.

DF <- read.csv("Site Coor R.csv", header = T, colClasses = c("numeric","numeric"))

result1 <- google_elevation(df_locations = DF[1:350,], key = "KEY")
result2 <- google_elevation(df_locations = DF[351:700,], key = "KEY")
result3 <- google_elevation(df_locations = DF[701:954,], key = "KEY")

> str(result1)
List of 2
 $ results:'data.frame':    350 obs. of  3 variables:
  ..$ elevation : num [1:350] 14.15 2.14 2.66 6.78 23.27 ...
  ..$ location  :'data.frame':  350 obs. of  2 variables:
  .. ..$ lat: num [1:350] 52.7 52.7 52.7 52.9 52.7 …

Run Code Online (Sandbox Code Playgroud)

r flatten dataframe googleway

The*_*oat

lucky-day

2
推荐指数

1
解决办法

1534
查看次数

在 R 中从 Google Drive 下载 xlsx 文件

我在 Google Drive 上公开分享了一个小数据集，并且任何知道该链接的人都可以访问该文件。

我希望将此文件下载到 R 中进行分析，但我在从临时目录中解压缩该文件时遇到困难。

我的代码如下所示：

install.packages("pacman")
library(pacman)
#Load Libraries
pacman::p_load(tidyverse,tidymodels,modeltime,timetk,googledrive)

temp <- tempfile(fileext = ".zip")

dl <- drive_download(
  as_id("https://drive.google.com/file/d/17ZhE3nxqtGYNzeADMzU02YzfKU9H9f5j/view?usp=sharing"),
  path = temp, 
  overwrite = TRUE, 
  type = "xlsx")

out <- unzip(temp, exdir = tempdir())

#Import Data
Three_Time_Series <- read_excel(out[1])

Run Code Online (Sandbox Code Playgroud)

当我检查该out变量时，我看到它是一个大小为 1:10 的字符向量，但每个字符串都引用和 xml 文件。在最后一行，我尝试读入out[1:10]，但每次都说：

Error: Can't establish that the input is either xls or xlsx.

Run Code Online (Sandbox Code Playgroud)

任何提示将非常感谢。

r google-drive-api

The*_*oat

lucky-day

2
推荐指数

1
解决办法

1349
查看次数

使用 dplyr 旋转多个列

我希望使用 dplyr 语法将宽格式的多列转为更长的列

我的数据如下：

x <- data.frame(
  provider_id = c(1, 2, 3),
  code_1 = c("207ZP0102X", "208600000X", "208100000X"),
  primary = c("y", "n", "n"),
  code_2 = c("208000000X", "207ZP0102X", "208600000X"),
  primary = c("n", "n", "y"),
  code_3 = c("208100000X", "208600000X", "207ZP0102X"),
  primary = c("n", "y", "n")
)

Run Code Online (Sandbox Code Playgroud)

我希望转换为以下格式，但我无法弄清楚 dplyr 语法来实现此目的。

任何帮助将不胜感激

pivot r dplyr

The*_*oat

lucky-day

2
推荐指数

1
解决办法

581
查看次数

R中的绘图函数中的线条粗细

我希望增加我创建的图中的线条粗细,但是每次指定lwd = 2我都会收到一个错误,指的是lwd的多个参数,但数据仍然是绘图但是没有边框,轴标题或缩放只是时间序列.

显然,在线宽方面存在一些其他内部冲突,但我不确定究竟是什么原因.

轴错误(1,at = xycoords $ x [ep],labels = names(ep),las = 1,lwd = 1,:形式参数"lwd"由多个实际参数匹配

一旦我删除了lwd参考,数据就像我预期的那样,但线条厚度不是我想要的.我怎样才能克服这个问题？

这是导致问题的代码段:

plot(x = wideRawXTS[,"DO0182U09A3"],
     xlab = "Time", 
     ylab = "RTWP Levels (dBm)", 
     main = "RTWP Vs. Time", 
     ylim = c(-110,-70), 
     major.ticks = "days", 
     minor.ticks = FALSE,
     col = "#1b9e77",
     lwd = 2)

Run Code Online (Sandbox Code Playgroud)

plot r xts

The*_*oat

2017 06-11

0
推荐指数

1
解决办法

3100
查看次数