假设现在我有dataframe2列:State和City.
然后dict,每个州都有一个单独的两个字母的缩写词.现在我想添加第三列来映射状态名称及其两个字母的缩写.我应该怎么做Python/Pandas?例如,示例问题如下:
import pandas as pd
a = pd.Series({'State': 'Ohio', 'City':'Cleveland'})
b = pd.Series({'State':'Illinois', 'City':'Chicago'})
c = pd.Series({'State':'Illinois', 'City':'Naperville'})
d = pd.Series({'State': 'Ohio', 'City':'Columbus'})
e = pd.Series({'State': 'Texas', 'City': 'Houston'})
f = pd.Series({'State': 'California', 'City': 'Los Angeles'})
g = pd.Series({'State': 'California', 'City': 'San Diego'})
state_city = pd.DataFrame([a,b,c,d,e,f,g])
state_2 = {'OH': 'Ohio','IL': 'Illinois','CA': 'California','TX': 'Texas'}
Run Code Online (Sandbox Code Playgroud)
现在我必须df state_city使用字典来映射列State state_2.该映射df state_city应包含三列:state,city,和state_2letter.
原始数据集我在几乎所有美国主要城市都有多个列.
因此,手动执行它的效率会降低.有没有简单的方法呢?
例如,state name: abbreviation在字典中存储键值对可能更容易,如下所示:
state_2 = {'Ohio': 'OH', 'Illinois': 'IL', 'California': 'CA', 'Texas': 'TX'}
Run Code Online (Sandbox Code Playgroud)
您可以轻松实现这一目标:
state_2 = {state: abbrev for abbrev, state in state_2.items()}
Run Code Online (Sandbox Code Playgroud)
使用pandas.DataFrame.map:
>>> state_city['abbrev'] = state_city['State'].map(state_2)
>>> state_city
City State abbrev
0 Cleveland Ohio OH
1 Chicago Illinois IL
2 Naperville Illinois IL
3 Columbus Ohio OH
4 Houston Texas TX
5 Los Angeles California CA
6 San Diego California CA
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2818 次 |
| 最近记录: |