我试图在一行中将一堆行累积成一行.如果可能的话,我希望在dplyr中.我知道我的代码远非正确,但这是我得到了多远:
data %>%
group_by(DAY) %>%
summarise_each(funs(Sum = n()), SEX, GROUP, TOTAL)
Run Code Online (Sandbox Code Playgroud)
原版的:
DAY SEX GROUP TOTAL
7/1/14 FEMALE A 1
7/1/14 FEMALE B 1
7/1/14 FEMALE B 1
7/1/14 FEMALE A 1
7/1/14 MALE A 1
7/1/14 MALE B 2
Run Code Online (Sandbox Code Playgroud)
新:
DAY FEMALE MALE GROUP_A GROUP_B TOTAL
7/1/14 4 2 3 3 7
Run Code Online (Sandbox Code Playgroud) 我正在尝试使用R来完成一项任务,以便在网站上搜索数据.
我想通过以下页面上的每个链接:http://capitol.hawaii.gov/advreports/advreport.aspx? year = 2013 & report = deadline &rpt_type =& measuretype = hb& title = House Bills
仅选择当前状态显示"已传输到调控器"的项目.例如,http://capitol.hawaii.gov/measure_indiv.aspx?billtype = HB&billnumber = 17&year = 2013
然后在STATUS TEXT中删除单元格以获取以下子句"通过最终阅读".例如:在SD 2中修改了最终解读,其中代表Fale,Jordan,Tsuji投票赞成保留; 代表Cabanilla,Morikawa,Oshiro,Tokioka投票否(4)并且没有原谅(0).
我已经尝试使用包Rcurl和XML(在R中)的先前示例,但我不知道如何正确使用它们用于aspx站点.所以我希望拥有的是:1.关于如何构建这样的代码的一些建议.2.并建议如何学习执行此类任务所需的知识.
谢谢你的帮助,
汤姆
我有一个如下所示的数据框:
V1 V2
peanut butter sandwich 2 slices of bread 1 tablespoon peanut butter
Run Code Online (Sandbox Code Playgroud)
我的目标是:
V1 V2
peanut butter sandwich 2 slices of bread
peanut butter sandwich 1 tablespoon peanut butter
Run Code Online (Sandbox Code Playgroud)
我试图分裂字符串使用strsplit(df$v2, " "),但我只能拆分" ".我不确定你是否只能在第一个数字处拆分字符串,然后取字符直到下一个数字.
你好stackoverflow社区!
有人请帮助我,因为我在R中创建一个等值区域图时遇到了一些困难.截至目前,我已将LL信息分配给我的兴趣点,现在我想使用"cans"变量创建一个等值区域图在高中地区的数据集(data.csv)中(highdist_n83.shp.zip).我想知道的是如何使用每个地区的罐头总和正确填充地图.我提供了代码,它从dropbox和我想要使用的shape文件中提取样本数据文件.
编辑 对不起,我忘了添加,当我只绘制形状文件时,我能够通过ggplot看到它呈现.但是,当我尝试使用"cans"变量的数量"填充"区域时,R会挂起一段时间,然后渲染看起来像原始形状上的大量线条.我想知道错误是否是由于以下可能的原因造成的
感谢您的时间!
###load R scripts from dropbox
dropbox.eval <- function(x, noeval=F) {
require(RCurl)
intext <- getURL(paste0("https://dl.dropboxusercontent.com/",x), ssl.verifypeer = FALSE)
intext <- gsub("\r","", intext)
if (!noeval) eval(parse(text = intext), envir= .GlobalEnv)
return(intext)
}
##pull scripts from dropbox
dropbox.eval("s/wgb3vtd9qfc9br9/pkg.load.r")
dropbox.eval("s/tf4ni48hf6oh2ou/dropbox.r")
##load packages
pkg.load(c(ggplot2,plyr,gdata,sp,maptools,rgdal,reshape2))
###setup data frames
dl_from_dropbox("data.csv","dx3qrcexmi9kagx")
data<-read.csv(file='data.csv',header=TRUE)
###prepare GIS shape and data for plotting
dropbox.eval("s/y2jsx3dditjucxu/dlshape.r")
temp <- tempfile()
dlshape(shploc="http://files.hawaii.gov/dbedt/op/gis/data/highdist_n83.shp.zip", temp)
shape<- readOGR(".","highdist_n83") #HDOE high school districts
shape@proj4string
shape2<- spTransform(shape, CRS("+proj=longlat +datum=NAD83"))
data.2<-ddply(data, .(year, schoolcode, longitude, …Run Code Online (Sandbox Code Playgroud) 你好stackoverflow社区!
有人可以帮助我解决我面临的R GIS问题.我正在尝试将可识别的变量分配给我已经地理编码的地址列表.地理编码是从Google Maps API获得的,因此我有纬度和经度信息(即-155.6019 18.99883).我想将此信息用于特定的形状文件.我的困境是我拥有的形状文件没有使用相同的纬度和经度系统.我附上了代码,以便您可以看到形状文件中使用的坐标系(即843662.6 2132942).
我想知道的是如何匹配我的地址列表和这个形状文件之间的坐标,以便我可以使用"叠加"功能将两者匹配在一起.
感谢您的时间!
#function to download shapefile from web
dlshapefile <- function(shploc,shpfile) {
temp <- tempfile()
download.file(shploc, temp)
unzip(temp)
}
temp <- tempfile()
require(maptools)
dlshapefile(shploc="http://files.hawaii.gov/dbedt/op/gis/data/highdist_n83.shp.zip", temp)
P4S.latlon <- CRS("+proj=longlat +datum=WGS84")
shapeFile <- readShapePoly("highdist_n83.shp", verbose=TRUE, proj4string=P4S.latlon)
Run Code Online (Sandbox Code Playgroud) 我注意到predict()只会在完整案例中创建预测.我已经包含medianImpute在preProcess选项中,例如:
train(outcome ~ .,
data = df,
method = "rf",
tuneLength = 5,
preProcess = c("YeoJohnson", "center", "scale", "medianImpute"),
metric = 'ROC',
trControl = train_ctrl)
}
Run Code Online (Sandbox Code Playgroud)
这是否意味着我应该在训练集之前对缺失的值进行估算?如果没有,我无法为测试集中的所有情况创建预测.我曾在Kuhn博士的书中读过,在交叉验证过程中应该进行预处理......谢谢!