状态名称缩写为R

Question

状态名称缩写为R

我有一个大型文件,其变量状态具有完整的州名.我想用州缩写(即"纽约"为"纽约")替换它.有没有一种简单的方法(除了使用几个if-else命令)？可能正在使用"替换"声明？谢谢.

Answer 1

R有两个可能有用的内置常量:state.abb缩写和state.name全名.这是一个简单的用法示例:

> x <- c("New York", "Virginia")
> state.abb[match(x,state.name)]
[1] "NY" "VA"

Run Code Online (Sandbox Code Playgroud)

@ user227290:如果你在考虑ifelse,那么看看`？switch`可能是明智之举.永远不知道它将来什么时候会派上用场. (5认同)
假设华盛顿特区的格式为“哥伦比亚特区”，我认为 `c(state.abb, 'DC')[match(x, c(state.name, 'District of Columbia'))]` 也适用 (2认同)

Answer 2

G. *_*eck 33

1) grep来自的全名state.name并使用它来索引state.abb:

state.abb[grep("New York", state.name)]
## [1] "NY"

Run Code Online (Sandbox Code Playgroud)

1a)或使用which:

state.abb[which(state.name == "New York")]
## [1] "NY"

Run Code Online (Sandbox Code Playgroud)

2)或创建一个状态缩写的向量,其名称是全名,并使用全名为其索引:

setNames(state.abb, state.name)["New York"]
## New York 
##     "NY"

Run Code Online (Sandbox Code Playgroud)

与(1)不同,即使"纽约"被满状态名称的矢量所取代,例如,这个也有效 setNames(state.abb, state.name)[c("New York", "Idaho")]

不，在这种情况下，请按照Aniko的建议使用“ match”代替“ grep”，或尝试使用“ setNames（state.abb，state.name）[c（“ New York”，“ Idaho”）]`。 (2认同)

Answer 3

小智 6

我发现内置的state.name和state.abb只有50个状态.我从在线获得了一个更大的表(包括DC等)(例如,这个链接:http://www.infoplease.com/ipa/A0110468.html)并将其粘贴到名为States.csv的.csv文件中.然后我加载状态和缩写.从此文件而不是使用内置.其余的与@Aniko非常相似

library(dplyr)
library(stringr)
library(stringdist)

setwd()
# load data
data = c("NY", "New York", "NewYork")
data = toupper(data)

# load state name and abbr.
State.data = read.csv('States.csv')
State = toupper(State.data$State)
Stateabb = as.vector(State.data$Abb)

# match data with state names, misspell of 1 letter is allowed
match = amatch(data, State, maxDist=1)
data[ !is.na(match) ] = Stateabb[ na.omit( match ) ]

Run Code Online (Sandbox Code Playgroud)

匹配和匹配之间的差异在于它们如何计算从一个单词到另一个单词的距离.请参见P25-26 http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf

Answer 4

Ben*_*n G 6

我知道旧帖子，但想把我的扔进去。我在 tidyverse 上学习过，所以无论好坏，我尽可能避免使用基础 R。我也想要一个带 DC 的，所以首先我建了人行横道：

library(tidyverse)

 st_crosswalk <- tibble(state = state.name) %>%
   bind_cols(tibble(abb = state.abb)) %>% 
   bind_rows(tibble(state = "District of Columbia", abb = "DC"))

Run Code Online (Sandbox Code Playgroud)

然后我将它加入到我的数据中：

left_join(data, st_crosswalk, by = "state")

Run Code Online (Sandbox Code Playgroud)

归档时间：	14 年，5 月前
查看次数：	36840 次
最近记录：	6 年，11 月前