Ren*_*ene 2 memory size dataframe julia
我想优化 Julia DataFrame(其中的列)。为此,我想获取优化前后 DataFrame 的大小。
这是一个数据框示例:
rows, columns = 10_000, 50
df = rand([x for x in "ABCDE"], rows, columns) |> DataFrame
Run Code Online (Sandbox Code Playgroud)
这个物体的大小df...
sizeof(df)
Run Code Online (Sandbox Code Playgroud)
尺寸为24。
但是,当我对列的大小求和时,大小是不同的......
sum([sizeof(df[x]) for x in names(df)])
Run Code Online (Sandbox Code Playgroud)
列大小的总和为 2000000。
这是优化...
for i = names(df)
df[i] = CategoricalArray(df[i], ordered=false)
end
Run Code Online (Sandbox Code Playgroud)
结果是:
sizeof(df)
Run Code Online (Sandbox Code Playgroud)
尺寸为24。
sum([sizeof(df[x]) for x in names(df)])
Run Code Online (Sandbox Code Playgroud)
列大小的总和为 800。
关于如何获取 DataFrame 的准确大小有什么建议吗?
以下是您如何做到这一点的方法:
julia> df = DataFrame(rand([x for x in "ABCDE"], rows, columns), :auto);
julia> Base.summarysize(df)
2007456
julia> Base.summarysize(mapcols(PooledArray, df)) # this will change in the next release of PooledArrays.jl as the default size of refarray element will be UInt32
525656
julia> Base.summarysize(mapcols(categorical, df))
2037256
julia> Base.summarysize(mapcols(x -> categorical(x, compress=true), df))
534856
Run Code Online (Sandbox Code Playgroud)
请注意,在这种情况下,它并不多,因为所有列都有Char元素类型。如果列包含长字符串,您将获得更多好处。
| 归档时间: |
|
| 查看次数: |
803 次 |
| 最近记录: |