abo*_*nov 1 python indexing plot matplotlib pandas
我正在尝试用一个简单的数据框构建一个箱线图。我拿一个多列,只拿我需要的两个:
mydata = data[['addr_state','loan_amnt']].dropna().copy()
mydata['loan_amnt'] = mydata['loan_amnt'].astype(float)
mydata[:5]
addr_state loan_amnt
0 AZ 5,000.00
1 GA 2,500.00
2 IL 2,400.00
3 CA 10,000.00
4 OR 3,000.00
mydata.columns
Index(['addr_state', 'loan_amnt'], dtype='object')
Run Code Online (Sandbox Code Playgroud)
基本上,这是一堆状态 - 金额记录,我正在尝试为它构建蜡烛:
mydata.boxplot(column='addr_state')
KeyError: "['addr_state'] not in index"
Run Code Online (Sandbox Code Playgroud)
我尝试了 set_index() 和 rebuild_index() 但似乎都没有修复它。
根据docs,column参数应该是groupby运行箱线图的数值(输入到 a而不是它的参数),并且通过参数是分组变量:
mydata.boxplot(column='loan_amnt', by='addr_state')
Run Code Online (Sandbox Code Playgroud)
用随机数据演示:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(1212)
mydata = pd.DataFrame({'loan_amnt': np.random.randn(50)*100,
'tool': ["".join(np.random.choice(['pandas', 'r', 'julia',
'sas', 'stata', 'spss'],1)) for _ in range(50)]})
mydata.boxplot(column='loan_amnt', by='tool')
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
2595 次 |
| 最近记录: |