小编yok*_*ota的帖子

R将行汇总到一行(连续和因子变量)

我试图在一行中将一堆行累积成一行.如果可能的话,我希望在dplyr中.我知道我的代码远非正确,但这是我得到了多远:

data %>%
  group_by(DAY) %>%
  summarise_each(funs(Sum = n()), SEX, GROUP, TOTAL)
Run Code Online (Sandbox Code Playgroud)

原版的:

DAY SEX GROUP   TOTAL       
7/1/14  FEMALE  A   1       
7/1/14  FEMALE  B   1       
7/1/14  FEMALE  B   1       
7/1/14  FEMALE  A   1       
7/1/14  MALE    A   1       
7/1/14  MALE    B   2       
Run Code Online (Sandbox Code Playgroud)

新:

DAY     FEMALE  MALE    GROUP_A GROUP_B TOTAL
7/1/14  4       2       3       3       7  
Run Code Online (Sandbox Code Playgroud)

r dplyr

7
推荐指数
2
解决办法
1574
查看次数

使用R从aspx网站上刮痧

我正在尝试使用R来完成一项任务,以便在网站上搜索数据.

  1. 我想通过以下页面上的每个链接:http://capitol.hawaii.gov/advreports/advreport.aspx? year = 2013 & report = deadline &rpt_type =& measuretype = hb& title = House Bills

  2. 仅选择当前状态显示"已传输到调控器"的项目.例如,http://capitol.hawaii.gov/measure_indiv.aspx?billtype = HB&billnumber = 17&year = 2013

  3. 然后在STATUS TEXT中删除单元格以获取以下子句"通过最终阅读".例如:在SD 2中修改了最终解读,其中代表Fale,Jordan,Tsuji投票赞成保留; 代表Cabanilla,Morikawa,Oshiro,Tokioka投票否(4)并且没有原谅(0).

我已经尝试使用包Rcurl和XML(在R中)的先前示例,但我不知道如何正确使用它们用于aspx站点.所以我希望拥有的是:1.关于如何构建这样的代码的一些建议.2.并建议如何学习执行此类任务所需的知识.

谢谢你的帮助,

汤姆

r web-scraping

6
推荐指数
1
解决办法
4429
查看次数

字符串拆分数字图案

我有一个如下所示的数据框:

V1                        V2
peanut butter sandwich    2 slices of bread 1 tablespoon peanut butter
Run Code Online (Sandbox Code Playgroud)

我的目标是:

V1                        V2
peanut butter sandwich    2 slices of bread
peanut butter sandwich    1 tablespoon peanut butter
Run Code Online (Sandbox Code Playgroud)

我试图分裂字符串使用strsplit(df$v2, " "),但我只能拆分" ".我不确定你是否只能在第一个数字处拆分字符串,然后取字符直到下一个数字.

regex string split r strsplit

6
推荐指数
2
解决办法
135
查看次数

与R使用shp文件的等值线图

你好stackoverflow社区!

有人请帮助我,因为我在R中创建一个等值区域图时遇到了一些困难.截至目前,我已将LL信息分配给我的兴趣点,现在我想使用"cans"变量创建一个等值区域图在高中地区的数据集(data.csv)中(highdist_n83.shp.zip).我想知道的是如何使用每个地区的罐头总和正确填充地图.我提供了代码,它从dropbox和我想要使用的shape文件中提取样本数据文件.

编辑 对不起,我忘了添加,当我只绘制形状文件时,我能够通过ggplot看到它呈现.但是,当我尝试使用"cans"变量的数量"填充"区域时,R会挂起一段时间,然后渲染看起来像原始形状上的大量线条.我想知道错误是否是由于以下可能的原因造成的

  1. 形状文件不好
  2. 可能存在我如何合并数据框和形状文件的问题,因为我注意到合并文件中添加了其他行
  3. 在一个地区有多所学校,我在使用ddply时没有合并.

感谢您的时间!

###load R scripts from dropbox
dropbox.eval <- function(x, noeval=F) {
require(RCurl)
intext <- getURL(paste0("https://dl.dropboxusercontent.com/",x), ssl.verifypeer = FALSE)
intext <- gsub("\r","", intext)
if (!noeval) eval(parse(text = intext), envir= .GlobalEnv)
return(intext)
}

##pull scripts from dropbox 
dropbox.eval("s/wgb3vtd9qfc9br9/pkg.load.r")    
dropbox.eval("s/tf4ni48hf6oh2ou/dropbox.r")

##load packages
pkg.load(c(ggplot2,plyr,gdata,sp,maptools,rgdal,reshape2))

###setup data frames
dl_from_dropbox("data.csv","dx3qrcexmi9kagx")
    data<-read.csv(file='data.csv',header=TRUE)

###prepare GIS shape and data for plotting
dropbox.eval("s/y2jsx3dditjucxu/dlshape.r")     
temp <- tempfile()
dlshape(shploc="http://files.hawaii.gov/dbedt/op/gis/data/highdist_n83.shp.zip", temp)
shape<- readOGR(".","highdist_n83") #HDOE high school districts  
shape@proj4string 

shape2<- spTransform(shape, CRS("+proj=longlat +datum=NAD83"))

data.2<-ddply(data, .(year, schoolcode, longitude, …
Run Code Online (Sandbox Code Playgroud)

gis r map ggplot2

4
推荐指数
1
解决办法
3045
查看次数

在R中转换形状坐标系

你好stackoverflow社区!

有人可以帮助我解决我面临的R GIS问题.我正在尝试将可识别的变量分配给我已经地理编码的地址列表.地理编码是从Google Maps API获得的,因此我有纬度和经度信息(即-155.6019 18.99883).我想将此信息用于特定的形状文件.我的困境是我拥有的形状文件没有使用相同的纬度和经度系统.我附上了代码,以便您可以看到形状文件中使用的坐标系(即843662.6 2132942).

我想知道的是如何匹配我的地址列表和这个形状文件之间的坐标,以便我可以使用"叠加"功能将两者匹配在一起.

感谢您的时间!

#function to download shapefile from web
dlshapefile <- function(shploc,shpfile) {
temp <- tempfile()
download.file(shploc, temp)
unzip(temp)
}

temp <- tempfile()

require(maptools)
dlshapefile(shploc="http://files.hawaii.gov/dbedt/op/gis/data/highdist_n83.shp.zip", temp)
P4S.latlon <- CRS("+proj=longlat +datum=WGS84")
shapeFile <- readShapePoly("highdist_n83.shp", verbose=TRUE, proj4string=P4S.latlon)
Run Code Online (Sandbox Code Playgroud)

gis r

3
推荐指数
1
解决办法
3162
查看次数

预处理插补R插入和预测

我注意到predict()只会在完整案例中创建预测.我已经包含medianImpute在preProcess选项中,例如:

train(outcome ~ ., 
        data = df,
        method = "rf", 
        tuneLength = 5,
        preProcess = c("YeoJohnson", "center", "scale", "medianImpute"),
        metric = 'ROC', 
        trControl = train_ctrl)
}
Run Code Online (Sandbox Code Playgroud)

这是否意味着我应该在训练集之前对缺失的值进行估算?如果没有,我无法为测试集中的所有情况创建预测.我曾在Kuhn博士的书中读过,在交叉验证过程中应该进行预处理......谢谢!

r r-caret

0
推荐指数
1
解决办法
1928
查看次数

标签 统计

r ×6

gis ×2

dplyr ×1

ggplot2 ×1

map ×1

r-caret ×1

regex ×1

split ×1

string ×1

strsplit ×1

web-scraping ×1