如何获取 Julia DataFrame 的内存大小？

Question

如何获取 Julia DataFrame 的内存大小？

我想优化 Julia DataFrame（其中的列）。为此，我想获取优化前后 DataFrame 的大小。

这是一个数据框示例：

rows, columns = 10_000, 50
df = rand([x for x in "ABCDE"], rows, columns) |> DataFrame

Run Code Online (Sandbox Code Playgroud)

这个物体的大小df...

sizeof(df)

Run Code Online (Sandbox Code Playgroud)

尺寸为24。

但是，当我对列的大小求和时，大小是不同的......

sum([sizeof(df[x]) for x in names(df)])

Run Code Online (Sandbox Code Playgroud)

列大小的总和为 2000000。

这是优化...

for i = names(df)
    df[i] = CategoricalArray(df[i], ordered=false)
end

Run Code Online (Sandbox Code Playgroud)

结果是：

sizeof(df)

Run Code Online (Sandbox Code Playgroud)

尺寸为24。

sum([sizeof(df[x]) for x in names(df)])

Run Code Online (Sandbox Code Playgroud)

列大小的总和为 800。

关于如何获取 DataFrame 的准确大小有什么建议吗？

Answer 1

Bog*_*ski 5

以下是您如何做到这一点的方法：

julia> df = DataFrame(rand([x for x in "ABCDE"], rows, columns), :auto);

julia> Base.summarysize(df)
2007456

julia> Base.summarysize(mapcols(PooledArray, df)) # this will change in the next release of PooledArrays.jl as the default size of refarray element will be UInt32
525656

julia> Base.summarysize(mapcols(categorical, df))
2037256

julia> Base.summarysize(mapcols(x -> categorical(x, compress=true), df))
534856

Run Code Online (Sandbox Code Playgroud)

请注意，在这种情况下，它并不多，因为所有列都有Char元素类型。如果列包含长字符串，您将获得更多好处。

归档时间：	5 年，1 月前
查看次数：	803 次
最近记录：	5 年，1 月前