我有一个包含> 1M行数据和20多列的表.
在我的表格(tableX)中,我在一个特定列(troubleColumn)中识别出重复记录(~80k).
如果可能的话,我想保留原始表名并从我有问题的列中删除重复记录,否则我可以创建一个具有相同模式但没有重复项的新表(tableXfinal).
我不擅长SQL或任何其他编程语言,所以请原谅我的无知.
delete from Accidents.CleanedFilledCombined
where Fixed_Accident_Index
in(select Fixed_Accident_Index from Accidents.CleanedFilledCombined
group by Fixed_Accident_Index
having count(Fixed_Accident_Index) >1);
Run Code Online (Sandbox Code Playgroud) 我希望在将文件导入R中的数据框时跳过我的csv文件的第1行和第3行.
在原始文件中,我的标题位于第2行.
使用read.csv中的skip参数我可以跳过第1行并将header参数设置为TRUE,我仍然在数据框中的原始文件中有第3行.
任何人都可以建议如何跳过R中的多个特定行,下面是我能够拼凑到一起的吗?
我可以将向量传递给skip参数,指定要忽略的确切行吗?
prach <- read.csv("RSRAN104_-_PRACH_Propagation_Delay-PLMN-day-rsran_RU50EP1_reports_RSRAN104_xml-2016_08_23-21_33_03__604.csv", header = TRUE, sep = ",", stringsAsFactors = FALSE, skip = 1)
Run Code Online (Sandbox Code Playgroud) 我正在使用插入符号中的train函数来训练SVM,使用svmRadial内核进行二进制分类任务.
当我在我的数据上运行train函数时,我逐渐得到这些消息
line search fails -2.13865 -0.1759025 1.01927e-05 3.812143e-06 -5.240749e-08 -1.810113e-08 -6.03178e-13line search fails -0.7148131 0.1612894 2.32937e-05 3.518543e-06 -1.821269e-08 -1.37704e-08 -4.726926e-13
代码完成后(编译/运行?)我也收到了以下警告:
> warnings()
Warning messages:
1: In method$predict(modelFit = modelFit, newdata = newdata, ... :
kernlab class prediction calculations failed; returning NAs
2: In method$prob(modelFit = modelFit, newdata = newdata, ... :
kernlab class probability calculations failed; returning NAs
3: In data.frame(..., check.names = FALSE) :
row names were found from a short variable and have been discarded
4: …Run Code Online (Sandbox Code Playgroud) 我有一个时间序列数据集,其中有一些缺失值。我想估算缺失值,但我不确定哪种方法最合适,例如包中的线性、样条或 stine imputeTS。
为了完整起见,我想测试一下我的数据是否是 MCAR、MAR、NMAR。我有一个合理的想法,它是 MCAR,但我有兴趣进行测试。
str(wideRawDF)
'data.frame': 1343 obs. of 13 variables:
$ Period.Start.Time: POSIXct, format: "2017-01-20 16:30:00" "2017-01-20 16:45:00" "2017-01-20 17:00:00" "2017-01-20 17:15:00" ...
$ DO0182U09A3 : num -102 -101 -101 -101 -101 ...
$ DO0182U09B3 : num -103.4 -102.8 -103.3 -95.9 -103 ...
$ DO0182U09C3 : num -103.9 -104.2 -103.9 -99.2 -104.1 ...
$ DO0182U21A1 : num -105 -105 -105 -104 -102 ...
$ DO0182U21A2 : num -105 -104 -105 -105 -105 ...
$ DO0182U21A3 : …Run Code Online (Sandbox Code Playgroud) 我正在尝试观看Julia Silge MLOps视频,其中她使用 Vetiver 和 Tidymodels 部署到 AWS Sagemaker,但是在 AWS 上花费了数百美元的账单后:( 我已转向 GCP,因为他们提供 300 美元的免费积分。
我正处于尝试创建 docker 映像以推送到 GCP 的阶段,但是当我运行时:
docker run --env-file C:/Users/John/Documents/.Renviron --rm -p 8000:8000 penguins
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
我有点困惑,因为我已将 .Renviron 设置为包含服务帐户 json 文件,如下所示:
根据 VonC 的回复,我添加了/path/in/container“/documents/”
在下面的屏幕截图中,我可以看到该路径/in/container已被推送到图像:
由于我可以运行gcs_list_buckets(projectId = "my-project-id")并查看我创建的存储桶,因此看起来好像我已完全连接到我的云环境。
经过几天的研究,我似乎必须提供环境变量的完整路径才能启用身份验证,我是否遗漏了什么?
是否可以将列索引传递给 read_csv?
我将许多 CSV 文件传递给具有不同标题名称的 read_csv,而不是指定我希望使用列索引的名称。
这可能吗?
df.list <- lapply(myExcelCSV, read_csv, skip = headers2skip[i]-1)
Run Code Online (Sandbox Code Playgroud) 我希望删除数据框中包含特定模式的行,并且如果可能的话,我希望使用 tidyverse 语法。
我希望删除第 1 列包含“cat”以及 col2:4 中任何一个包含以下任何单词的行:狗、狐狸或牛。对于此示例,将从原始数据中删除第 1 行和第 4 行。
这是一个示例数据集:
df <- data.frame(col1 = c("cat", "fox", "dog", "cat", "pig"),
col2 = c("lion", "tiger", "elephant", "dog", "cow"),
col3 = c("bird", "cow", "sheep", "fox", "dog"),
col4 = c("dog", "cat", "cat", "cow", "fox"))
Run Code Online (Sandbox Code Playgroud)
我尝试过多种不同的变体,但不断遇到问题。这是我的最新尝试:
filtered_df <- df %>%
filter(!(animal1 == "cat" & !any(cowfoxdog <- across(animal2:animal4, ~ . %in% c("cow", "fox", "dog")))))
Run Code Online (Sandbox Code Playgroud)
这将返回以下错误:
Error in `filter()`:
! Problem while computing `..1 = !...`.
Caused by error in `FUN()`:
! only defined …Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其中包含一列时间序列数据和 9 个其他变量,每次都有信号强度值,见下文:
head(RTWP_Columns)
Period.Start.Time DU0362U09A3 DU0362U09B3 DU0362U09C3 DU0362U21A1 DU0362U21A2 DU0362U21B1 DU0362U21B2 DU0362U21C1
1 01.16.2017 00:00:00 -104.54 -106.43 -104.40 -104.48 -103.04 -104.50 -103.58 -104.10
2 01.16.2017 00:15:00 -104.98 -106.49 -104.48 -104.47 -103.40 -104.50 -103.81 -104.22
3 01.16.2017 00:30:00 -105.34 -106.45 -104.50 -104.50 -103.23 -104.50 -104.01 -104.26
4 01.16.2017 00:45:00 -105.30 -106.48 -104.48 -104.50 -103.38 -104.41 -104.10 -104.32
5 01.16.2017 01:00:00 -104.99 -106.49 -104.50 -104.50 -103.44 -104.50 -104.36 -104.24
6 01.16.2017 01:15:00 -105.33 -106.49 -104.49 -104.50 -103.82 -104.50 -104.39 -104.39
DU0362U21C2 …Run Code Online (Sandbox Code Playgroud) 我正在使用该Googleway软件包获取一堆lat长坐标的高程信息,其总共有954个.
我将调用分成3个单独的文件,但它们是列表格式,当我将它们转换为数据帧时,它们是嵌套的数据帧格式.我一直试图压扁文件并取消列出,但我没有成功.
DF <- read.csv("Site Coor R.csv", header = T, colClasses = c("numeric","numeric"))
result1 <- google_elevation(df_locations = DF[1:350,], key = "KEY")
result2 <- google_elevation(df_locations = DF[351:700,], key = "KEY")
result3 <- google_elevation(df_locations = DF[701:954,], key = "KEY")
> str(result1)
List of 2
$ results:'data.frame': 350 obs. of 3 variables:
..$ elevation : num [1:350] 14.15 2.14 2.66 6.78 23.27 ...
..$ location :'data.frame': 350 obs. of 2 variables:
.. ..$ lat: num [1:350] 52.7 52.7 52.7 52.9 52.7 …Run Code Online (Sandbox Code Playgroud) 我在 Google Drive 上公开分享了一个小数据集,并且任何知道该链接的人都可以访问该文件。
我希望将此文件下载到 R 中进行分析,但我在从临时目录中解压缩该文件时遇到困难。
我的代码如下所示:
install.packages("pacman")
library(pacman)
#Load Libraries
pacman::p_load(tidyverse,tidymodels,modeltime,timetk,googledrive)
temp <- tempfile(fileext = ".zip")
dl <- drive_download(
as_id("https://drive.google.com/file/d/17ZhE3nxqtGYNzeADMzU02YzfKU9H9f5j/view?usp=sharing"),
path = temp,
overwrite = TRUE,
type = "xlsx")
out <- unzip(temp, exdir = tempdir())
#Import Data
Three_Time_Series <- read_excel(out[1])
Run Code Online (Sandbox Code Playgroud)
当我检查该out变量时,我看到它是一个大小为 1:10 的字符向量,但每个字符串都引用和 xml 文件。在最后一行,我尝试读入out[1:10],但每次都说:
Error: Can't establish that the input is either xls or xlsx.
Run Code Online (Sandbox Code Playgroud)
任何提示将非常感谢。
我希望使用 dplyr 语法将宽格式的多列转为更长的列
我的数据如下:
x <- data.frame(
provider_id = c(1, 2, 3),
code_1 = c("207ZP0102X", "208600000X", "208100000X"),
primary = c("y", "n", "n"),
code_2 = c("208000000X", "207ZP0102X", "208600000X"),
primary = c("n", "n", "y"),
code_3 = c("208100000X", "208600000X", "207ZP0102X"),
primary = c("n", "y", "n")
)
Run Code Online (Sandbox Code Playgroud)
我希望转换为以下格式,但我无法弄清楚 dplyr 语法来实现此目的。
任何帮助将不胜感激
我希望增加我创建的图中的线条粗细,但是每次指定lwd = 2我都会收到一个错误,指的是lwd的多个参数,但数据仍然是绘图但是没有边框,轴标题或缩放只是时间序列.
显然,在线宽方面存在一些其他内部冲突,但我不确定究竟是什么原因.
轴错误(1,at = xycoords $ x [ep],labels = names(ep),las = 1,lwd = 1,:形式参数"lwd"由多个实际参数匹配
一旦我删除了lwd参考,数据就像我预期的那样,但线条厚度不是我想要的.我怎样才能克服这个问题?
这是导致问题的代码段:
plot(x = wideRawXTS[,"DO0182U09A3"],
xlab = "Time",
ylab = "RTWP Levels (dBm)",
main = "RTWP Vs. Time",
ylim = c(-110,-70),
major.ticks = "days",
minor.ticks = FALSE,
col = "#1b9e77",
lwd = 2)
Run Code Online (Sandbox Code Playgroud)