当 Sparse = True 时 pd.get_dummies 数据帧的大小与 Sparse = False 时的大小相同

Question

当 Sparse = True 时 pd.get_dummies 数据帧的大小与 Sparse = False 时的大小相同

try*_*uff 5 python pandas scikit-learn sklearn-pandas

我有一个包含多个字符串列的数据框，我想将其转换为分类数据，以便我可以运行一些模型并从中提取重要特征。

然而，由于唯一值的数量，独热编码数据会扩展为大量列，从而导致性能问题。

为了解决这个问题，我正在尝试使用Sparse = Trueget_dummies 中的参数。

test1 = pd.get_dummies(X.loc[:,['col1','col2','col3','col4']].head(10000))
test2 = pd.get_dummies(X.loc[:,['col1','col2','col3','col4']].head(10000),sparse = True)

Run Code Online (Sandbox Code Playgroud)

但是，当我检查两个比较对象的信息时，它们占用相同的内存量。看起来并没有Sparse = True占用更少的空间。这是为什么？

test1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10000 entries, 537293 to 752152
Columns: 2253 entries,...
dtypes: uint8(2253)
memory usage: 21.6 MB

test2.info()
<class 'pandas.core.sparse.frame.SparseDataFrame'>
Int64Index: 10000 entries, 537293 to 752152
Columns: 2253 entries, ...
dtypes: uint8(2253)
memory usage: 21.9 MB

Run Code Online (Sandbox Code Playgroud)

Answer 1

gyo*_*oza 6

我查看了 pandas get_dummies源代码，但到目前为止还没有发现错误。这是我在下面做的一个小实验（第一半是用真实数据重现你的问题）。

In [1]: import numpy as np
   ...: import pandas as pd
   ...: 
   ...: a = ['a', 'b'] * 100000
   ...: A = ['A', 'B'] * 100000
   ...: 
   ...: df1 = pd.DataFrame({'a': a, 'A': A})
   ...: df1 = pd.get_dummies(df1)
   ...: df1.info()
   ...:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
A_A    200000 non-null uint8
A_B    200000 non-null uint8
a_a    200000 non-null uint8
a_b    200000 non-null uint8
dtypes: uint8(4)
memory usage: 781.3 KB

In [2]: df2 = pd.DataFrame({'a': a, 'A': A})
   ...: df2 = pd.get_dummies(df2, sparse=True)
   ...: df2.info()
   ...:
<class 'pandas.core.sparse.frame.SparseDataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
A_A    200000 non-null uint8
A_B    200000 non-null uint8
a_a    200000 non-null uint8
a_b    200000 non-null uint8
dtypes: uint8(4)
memory usage: 781.3 KB

Run Code Online (Sandbox Code Playgroud)

到目前为止，结果与您的结果相同（的大小df1等于的大小df2），但是如果我显式转换df2为sparse使用to_sparsewithfill_value=0

In [3]: df2 = df2.to_sparse(fill_value=0)
   ...: df2.info()
   ...:
<class 'pandas.core.sparse.frame.SparseDataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
A_A    200000 non-null uint8
A_B    200000 non-null uint8
a_a    200000 non-null uint8
a_b    200000 non-null uint8
dtypes: uint8(4)
memory usage: 390.7 KB

Run Code Online (Sandbox Code Playgroud)

现在内存使用量减少了一半，因为一半的数据是0。

总之，我不确定为什么 get_dummies(sparse=True) 即使转换为 SparseDataFrame 也不压缩数据帧，但有一个解决方法。相关讨论在 github get_dummies 中进行，稀疏不会将数字转换为稀疏，但结论似乎仍然悬而未决。

归档时间：	7 年，9 月前
查看次数：	2802 次
最近记录：	7 年，9 月前