小编Mic*_*ams的帖子

dplyr中是否提供cut()样式分箱？

有没有办法做一些类似于cut()在dplyr表中装箱数值的函数？我正在研究一个大的postgres表,并且当前可以在一开始就在sql中编写case语句,或者输出非聚合数据并应用cut().两者都有明显的缺点...案例陈述不是特别优雅,并且通过collect()根本没有效率地提取大量记录.

sql r binning dplyr

Mic*_*ams

2018 08-07

32
推荐指数

3
解决办法

1万
查看次数

R有加权.median()函数吗？

我正在寻找类似于weighted.mean()的形式.很抱歉发布了这样一个平庸的问题......对R来说很新.我通过搜索找到了一些解决方案,写出了整个功能,但会感谢一些用户友好的东西.

Mic*_*ams

2019 05-27

30
推荐指数

5
解决办法

1万
查看次数

Knitr chunk正在从*.csv导入记录的子集,作为R中的相同代码

Rstudio版本0.96.331和knitr版本0.8

我认为我的问题已经通过更新RStudio和库来解决了......但是:

R中的以下运行为我提供了940个唯一的Table.ID值.在knitr块中运行我得到228个唯一值并且出现以下警告:

"在输入连接上找到无效输入' http://www2.census.gov/acs2010_5yr/summaryfile/Sequence_Number_and_Table_Number_Lookup.txt '

我不明白为什么两种方法之间存在区别.

Sequence <- read.csv("http://www2.census.gov/acs2010_5yr/summaryfile/Sequence_Number_and_Table_Number_Lookup.txt",
                   stringsAsFactors=FALSE)
unique(Sequence$Table.ID)

Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

r knitr

Mic*_*ams

2012 09-08

4
推荐指数

1
解决办法

555
查看次数

如何在knitr中使用ggmap库的get_map函数？

我的所有R代码都在独立脚本中按预期运行.一旦进入R Markdown文件,get_map()调用就会崩溃.

map <- get_map(location = 'minneapolis', zoom = 9)

Run Code Online (Sandbox Code Playgroud)

我收到一个错误:

label:unnamed-chunk-2
sink()中的警告:没有要删除
标签的接收器:unnamed-chunk-2
process_file(文本)中的错误:
从第53-64行退出:close.connection(con)中的错误:无效的连接
调用:knit - > process_file
执行暂停的knitr以状态1终止

任何想法为什么knitr和get_map都不好玩？

r knitr ggmap

Mic*_*ams

lucky-day

3
推荐指数

1
解决办法

1889
查看次数

如何确定与read.fwf一起使用的正确文件编码(或使用解决方法删除不符合的字符)

我在下面的问题中尝试了这种方法,但仍然卡住了.

如何检测read.csv的正确编码？

以下代码应该是可重现的...任何想法？我宁愿不使用scan()或readLines,因为我过去一直在成功使用此代码来处理各种状态级别的ACS数据....

我的另一个想法是在导入之前编辑文本文件.但是,我将文件存储为zipped并使用脚本解压缩然后访问数据.必须在R环境之外编辑文件才会真正搞砸了这个过程.提前致谢!

Filename <- "g20095us.txt"
Url <- "http://www2.census.gov/acs2005_2009_5yr/summaryfile/2005-2009_ACSSF_By_State_By_Sequence_Table_Subset/UnitedStates/All_Geographies_Not_Tracts_Block_Groups/"

Widths <- c(6,2,3,2,7,1,1,1,2,2,3,5,5,6,1,5,4,5,1,3,5,5,5,3,5,1,1,5,3,5,5,5,2,3,
        3,6,3,5,5,5,5,5,1,1,6,5,5,40,200,6,1,50)
Classes <- c(rep('character',4),'integer',rep('character',47))
Names <- c('fileid','stusab','sumlev','geocomp','logrecno','us','region','division',
       'statece','state','county','cousub','place','tract','blkgrp','concit',
       rep('blank',14),'ua',rep('blank',11),'ur',rep('blank',4),'geoid','name',rep('blank',3))
GeoHeader <- read.fwf(paste0(Url,Filename),widths=Widths,
                  colClasses=Classes,col.names=Names,fill=TRUE,strip.white=TRUE)

Run Code Online (Sandbox Code Playgroud)

下面的文件"g2009us.txt"中的四行.第二个"Canoncito"造成了问题.下载中的其他文件是csv,但是这个文件是固定宽度的,并且是识别感兴趣的地理位置所必需的(数据的组织不是非常直观).

ACSSF US251000000964 2430 090 25100US2430090 Cameron Chapter,Navajo Nation Reservation and Off-Reservation Trust Land,AZ - NM - UT ACSSF US251000000965 2430 09225100US2430092CañoncitoChapter,Navajo Nation Reservation and Off-Reservation Trust Land,AZ - NM - UT ACSSF US251000000966 2430 095 25100US2430095 Casamero Lake Chapter,纳瓦霍国家保留和非预订信托土地,亚利桑那州 - 新墨西哥州 - 美国证券交易所代码US251000000967 2430 105 25100US2430105 Chi Chil Tah章,纳瓦霍国家预订和非预订信托基地,亚利桑那州 - 新墨西哥州 - UT

r character-encoding

Mic*_*ams

2017 05-23

2
推荐指数

1
解决办法

1720
查看次数