我希望能够DataFrame为行和列索引创建一个带有MultiIndexes 的Pandas ,并从ASCII文本文件中读取它.我的数据如下:
col_indx = MultiIndex.from_tuples([('A', 'B', 'C'), ('A', 'B', 'C2'), ('A', 'B', 'C3'),
('A', 'B2', 'C'), ('A', 'B2', 'C2'), ('A', 'B2', 'C3'),
('A', 'B3', 'C'), ('A', 'B3', 'C2'), ('A', 'B3', 'C3'),
('A2', 'B', 'C'), ('A2', 'B', 'C2'), ('A2', 'B', 'C3'),
('A2', 'B2', 'C'), ('A2', 'B2', 'C2'), ('A2', 'B2', 'C3'),
('A2', 'B3', 'C'), ('A2', 'B3', 'C2'), ('A2', 'B3', 'C3')],
names=['one','two','three'])
row_indx = MultiIndex.from_tuples([(0, 'North', 'M'),
(1, 'East', 'F'),
(2, 'West', 'M'),
(3, 'South', 'M'),
(4, 'South', 'F'),
(5, 'West', 'F'),
(6, 'North', 'M'),
(7, 'North', 'M'),
(8, 'East', 'F'),
(9, 'South', 'M')],
names=['n', 'location', 'sex'])
size=len(row_indx), len(col_indx)
data = np.random.randint(0,10, size)
df = DataFrame(data, index=row_indx, columns=col_indx)
print df
Run Code Online (Sandbox Code Playgroud)
我已经尝试了df.to_csv(),read_csv()但他们没有保留索引.
我在考虑使用额外的分隔符创建一个新的格式.例如,使用一行----------------标记列索引的结尾,使用a 标记|行索引的结尾.所以它看起来像这样:
one | A A A A A A A A A A2 A2 A2 A2 A2 A2 A2 A2 A2
two | B B B B2 B2 B2 B3 B3 B3 B B B B2 B2 B2 B3 B3 B3
three | C C2 C3 C C2 C3 C C2 C3 C C2 C3 C C2 C3 C C2 C3
--------------------------------------------------------------------------------------
n location sex :
0 North M | 2 3 9 1 0 6 5 9 5 9 4 4 0 9 6 2 6 1
1 East F | 6 2 9 2 7 0 0 3 7 4 8 1 3 2 1 7 7 5
2 West M | 5 8 9 7 6 0 3 0 2 5 0 3 9 6 7 3 4 9
3 South M | 6 2 3 6 4 0 4 0 1 9 3 6 2 1 0 6 9 3
4 South F | 9 6 0 0 6 1 7 0 8 1 7 6 2 0 8 1 5 3
5 West F | 7 9 7 8 2 0 4 3 8 9 0 3 4 9 2 5 1 7
6 North M | 3 3 5 7 9 4 2 6 3 2 7 5 5 5 6 4 2 9
7 North M | 7 4 8 6 8 4 5 7 9 0 2 9 1 9 7 9 5 6
8 East F | 1 6 5 3 6 4 6 9 6 9 2 4 2 9 8 4 2 4
9 South M | 9 6 6 1 3 1 3 5 7 4 8 6 7 7 8 9 2 3
Run Code Online (Sandbox Code Playgroud)
Pandas是否有办法使用MultiIndexes向/从ASCII文件写入/读取DataFrame?
dil*_*iop 11
不确定您使用的是哪个版本的pandas但是0.7.3您可以DataFrame通过执行以下操作将您导出到TSV文件并保留索引:
df.to_csv('mydf.tsv', sep='\t')
Run Code Online (Sandbox Code Playgroud)
您需要导出到TSV与CSV的原因是因为列标题中包含,字符.这应该解决你问题的第一部分.
第二部分有点棘手,因为据我所知,你需要预先知道你想要你的DataFrame包含什么.特别是,你需要知道:
MultiIndexMultiIndex为了说明这一点,让我们将上面保存的TSV文件读回一个新的DataFrame:
In [1]: t_df = read_table('mydf.tsv', index_col=[0,1,2])
In [2]: all(t_df.index == df.index)
Out[2]: True
Run Code Online (Sandbox Code Playgroud)
所以我们设法读mydf.tsv入了DataFrame与原始行索引相同的行索引df.但:
In [3]: all(t_df.columns == df.columns)
Out[3]: False
Run Code Online (Sandbox Code Playgroud)
这里的原因是因为pandas(据我所知)无法正确解析标题行MultiIndex.正如我上面提到的,如果您知道您的TSV文件头代表a,MultiIndex那么您可以执行以下操作来解决此问题:
In [4]: from ast import literal_eval
In [5]: t_df.columns = MultiIndex.from_tuples(t_df.columns.map(literal_eval).tolist(),
names=['one','two','three'])
In [6]: all(t_df.columns == df.columns)
Out[6]: True
Run Code Online (Sandbox Code Playgroud)
您可以使用set_option以下方式更改打印选项:
display.multi_sparse:
: boolean
默认显示True“稀疏” (不显示组中外部级别的重复元素)MultiIndex
现在,DataFrame将根据需要进行打印:
In [11]: pd.set_option('multi_sparse', False)
In [12]: df
Out[12]:
one A A A A A A A A A A2 A2 A2 A2 A2 A2 A2 A2 A2
two B B B B2 B2 B2 B3 B3 B3 B B B B2 B2 B2 B3 B3 B3
three C C2 C3 C C2 C3 C C2 C3 C C2 C3 C C2 C3 C C2 C3
n location sex
0 North M 2 1 6 4 6 4 7 1 1 0 4 3 9 2 0 0 6 4
1 East F 3 5 5 6 4 8 0 3 2 3 9 8 1 6 7 4 7 2
2 West M 7 9 3 5 0 1 2 8 1 6 0 7 9 9 3 2 2 4
3 South M 1 0 0 3 5 7 7 0 9 3 0 3 3 6 8 3 6 1
4 South F 8 0 0 7 3 8 0 8 0 5 5 6 0 0 0 1 8 7
5 West F 6 5 9 4 7 2 5 6 1 2 9 4 7 5 5 4 3 6
6 North M 3 3 0 1 1 3 6 3 8 6 4 1 0 5 5 5 4 9
7 North M 0 4 9 8 5 7 7 0 5 8 4 1 5 7 6 3 6 8
8 East F 5 6 2 7 0 6 2 7 1 2 0 5 6 1 4 8 0 3
9 South M 1 2 0 6 9 7 5 3 3 8 7 6 0 5 4 3 5 9
Run Code Online (Sandbox Code Playgroud)
注意:在较早的熊猫版本中,它是pd.set_printoptions(multi_sparse=False)。