覆盖单元格数据时,MATLAB matfile的大小会增加

use*_*321 2 matlab overwrite save partial mat

由于数据量大且频繁自动保存,我决定使用matfile对象将保存方法从标准save()函数更改为部分保存:

https://www.mathworks.com/help/matlab/ref/matfile.html

我做了这个更改,因为使用save()会覆盖所有内容,即使对结构进行了微小的更改,也会大大减慢程序的速度.但是我注意到每次调用时使用matfile保存的时间都会线性增加,经过一些调试后我注意到这是由于文件大小每次都在增加,即使数据被相同的数据覆盖也是如此.这是一个例子:

% Save MAT file with string variable and cell variable
  stringvar = 'hello'
  cellvar = {'world'}
  save('test.mat', 'stringvar', 'cellvar', '-v7.3')
  m = matfile('test.mat', 'Writable', true);
% Get number of bytes of MAT file
  f = dir('test.mat'); f.bytes
% Output: 3928 - inital size
% Overwrite stringvar with same data.
  m.stringvar = 'hello';
  f = dir('test.mat'); f.bytes
% Output: 3928 - same as before
% Overwrite cellvar with same data.
  m.cellvar = {'world'};
  f = dir('test.mat'); f.bytes
% Output: 4544 - size increased
Run Code Online (Sandbox Code Playgroud)

我不明白为什么当数据相同时字节数会增加.它增加了一个非常明显的时间延迟,增加了每个保存,因此它失去了部分保存的目的.知道这里发生了什么吗?对此的帮助将不胜感激!

Sue*_*ver 5

这是由于7.3(HDF5)mat文件中存储(和更新)单元数组和更复杂数据类型的方式.由于单元格数组包含混合数据类型,MATLAB将单元格数组变量存储在根(/)HDF5组中作为一系列引用,这些引用指向/#refs#包含数据集的组,每个数据集包含一个单元格的数据.

每当你尝试覆盖单元阵列值,所述/#refs# HDF5组被附加到与新的数据集,其表示单元阵列元素数据和refrences/ 被更新为指向这个新的数据.旧的(现在使用的非)的数据集/#refs#不会被删除.这是HDF5文件的设计行为,因为从文件中删除数据需要在删除区域之后移动所有文件内容以"缩小差距",这将导致(可能是巨大的)性能损失**.

我们可以h5disp用来查看MATLAB正在创建的文件的内容来说明这一点.下面我将使用缩写输出,h5disp因此它更清晰:

stringvar = 'hello';
cellvar = {'world'};
save('test.mat', 'stringvar', 'cellvar', '-v7.3')

h5disp('test.mat')
% HDF5 test.mat
%    Group '/'
%        Dataset 'cellvar'                  <--- YOUR CELL ARRAY
%            Size:  1x1                     <--- HERE IS ITS SIZE
%            Datatype:   H5T_REFERENCE      <--- THE ACTUAL DATA LIVES IN /#REFS#
%            Attributes:
%                'MATLAB_class':  'cell'
%        Dataset 'stringvar'                <--- YOUR STRING
%            Size:  1x5                     <--- HAS 5 CHARACTERS
%            Datatype:   H5T_STD_U16LE (uint16)
%            Attributes:
%                'MATLAB_class':  'char'
%                'MATLAB_int_decode':  2
%        Group '/#refs#'                    <--- WHERE THE DATA FOR THE CELL ARRAY LIVES
%            Attributes:
%                'H5PATH':  '/#refs#'
%            Dataset 'a'
%                Size:  2
%                Datatype:   H5T_STD_U64LE (uint64)
%                Attributes:
%                    'MATLAB_empty':  1
%                    'MATLAB_class':  'canonical empty'
%            Dataset 'b'                    <--- THE CELL ARRAY DATA
%                Size:  1x5                 <--- CONTAINS A 5-CHAR STRING
%                Datatype:   H5T_STD_U16LE (uint16)
%                Attributes:
%                    'MATLAB_class':  'char'
%                    'MATLAB_int_decode':  2
%                    'H5PATH':  '/#refs#/b'

%% Now we want to replace the string with a 6-character string
m.stringvar = 'hellos';
h5disp('test.mat')
% HDF5 test.mat
%    Group '/'
%        Dataset 'cellvar'                      <--- THIS REMAINS UNCHANGED
%            Size:  1x1
%            Datatype:   H5T_REFERENCE
%            Attributes:
%                'MATLAB_class':  'cell'
%        Dataset 'stringvar'
%            Size:  1x6                         <--- JUST INCREASED THE LENGTH OF THIS TO 6
%            Datatype:   H5T_STD_U16LE (uint16)
%            Attributes:
%                'MATLAB_class':  'char'
%                'MATLAB_int_decode':  2
%        Group '/#refs#'
%            Attributes:
%                'H5PATH':  '/#refs#'
%            Dataset 'a'                        <--- NONE OF THIS HAS CHANGED
%                Size:  2
%                Datatype:   H5T_STD_U64LE (uint64)
%                Attributes:
%                    'MATLAB_empty':  1
%                    'MATLAB_class':  'canonical empty'
%            Dataset 'b'
%                Size:  1x5
%                Datatype:   H5T_STD_U16LE (uint16)
%                Attributes:
%                    'MATLAB_class':  'char'
%                    'MATLAB_int_decode':  2
%                    'H5PATH':  '/#refs#/b'

%% Now change the cell (and replace with a 6-character string)
m.cellvar = {'worlds'};
%    HDF5 test.mat
%    Group '/'
%        Dataset 'cellvar'                  <--- HERE IS YOUR CELL ARRAY AGAIN
%            Size:  1x1
%            Datatype:   H5T_REFERENCE      <--- STILL A REFERENCE
%            Attributes:
%                'MATLAB_class':  'cell'
%        Dataset 'stringvar'                <--- STRING VARIABLE UNCHANGED
%            Size:  1x6
%            Datatype:   H5T_STD_U16LE (uint16)
%            Attributes:
%                'MATLAB_class':  'char'
%                'MATLAB_int_decode':  2
%        Group '/#refs#'
%            Attributes:
%                'H5PATH':  '/#refs#'
%            Dataset 'a'                            <--- THE OLD DATA IS STILL HERE
%                Size:  2
%                Datatype:   H5T_STD_U64LE (uint64)
%                Attributes:
%                    'MATLAB_empty':  1
%                    'MATLAB_class':  'canonical empty'
%            Dataset 'b'                            <--- THE OLD DATA IS STILL HERE
%                Size:  1x5
%                Datatype:   H5T_STD_U16LE (uint16)
%                Attributes:
%                    'MATLAB_class':  'char'
%                    'MATLAB_int_decode':  2
%                    'H5PATH':  '/#refs#/b'
%            Dataset 'c'                            <--- THE NEW DATA IS ALSO HERE
%                Size:  2
%                Datatype:   H5T_STD_U64LE (uint64)
%                Attributes:
%                    'MATLAB_empty':  1
%                    'MATLAB_class':  'canonical empty'
%            Dataset 'd'                            <--- THE NEW DATA IS ALSO HERE
%                Size:  1x6                         <--- NOW WITH 6 CHARACTERS
%                Datatype:   H5T_STD_U16LE (uint16)
%                Attributes:
%                    'MATLAB_class':  'char'
%                    'MATLAB_int_decode':  2
%                    'H5PATH':  '/#refs#/d'
Run Code Online (Sandbox Code Playgroud)

正是这个#refs#组的大小增加导致文件大小增加.由于#refs#包含实际数据,因此每次保存文件时,将替换要替换的单元数组元素中的所有数据.

至于为什么 Mathworks选择将HDF5用于7.3 mat文件,尽管这看似很大的限制,似乎7.3文件的动机是帮助访问文件中的数据而不是为了优化文件大小.

一种可能的解决方法是使用7.0格式,这是非HDF5格式,并且在修改单元格数组变量时文件大小不会增长.7.0 vs 7.3的唯一真正缺点是你不能只修改7.0文件中变量的一部分.另一个好处是,对于复杂数据,与7.3 HDF5文件相比,7.0 .mat文件的读写速度通常更快.

% Helper function to tell us the size
printsize = @(filename)disp(getfield(dir(filename), 'bytes'));

stringvar = 'hello'
cellvar = {'world'}

% Save as 7.0 version
save('test.mat', 'stringvar', 'cellvar', '-v7')
printsize('test.mat')
%   256

m = matfile('test.mat', 'Writable', true);

m.stringvar = 'hello';
printsize('test.mat')
%   256

m.cellvar = {'world'};
printsize('test.mat')
%   256
Run Code Online (Sandbox Code Playgroud)

如果您仍想使用7.3文件,可能值得将单元格数组保存到临时变量,在函数内修改它,并且很少将其写回文件以防止不必要的写入.

tmp = m.cellvar;

% Make many modifications
tmp{1} = 'hello';
tmp{2} = 'world';
tmp{1} = 'Just kidding!';

% Write once after all changes have been made
m.cellvar = tmp;
Run Code Online (Sandbox Code Playgroud)

**通常您可以h5repack用来回收文件中未使用的空间; 但是,MATLAB实际上并没有删除数据,/#refs#所以h5repack没有任何效果.根据我收集的内容,您必须自己删除数据,然后使用它h5repack来释放未使用的空间.

fid = H5F.open('test2.mat', 'H5F_ACC_RDWR', 'H5P_DEFAULT');

% I've hard-coded these names just as an example
H5L.delete(fid, '/#refs#/a', 'H5P_DEFAULT')
H5L.delete(fid, '/#refs#/b', 'H5P_DEFAULT')
H5F.close(fid);

system('h5repack test.mat test.repacked.mat');
Run Code Online (Sandbox Code Playgroud)