我有一些相当大的 int16 格式的数据文件(256 个通道,大约 75-1 亿个样本 = 每个文件约 40-50 GB 左右)。它以平面二进制格式编写,因此结构类似于:CH1S1,CH2S1,CH3S1 ... CH256S1,CH1S2,CH2S2,...
我需要分别读取每个通道,进行过滤和偏移校正,然后保存。我当前的瓶颈是加载每个通道,这大约需要 7-8 分钟……扩大到 256 倍,光是加载数据就需要近 30 个小时!我正在尝试智能地使用 fread,在读取每个通道时跳过字节;我在所有 256 个通道上循环使用以下代码来执行此操作:
offset = i - 1;
fseek(fid,offset*2,'bof');
dat = fread(fid,[1,nSampsTotal],'*int16',(nChan-1)*2);
Run Code Online (Sandbox Code Playgroud)
仔细阅读,这通常是加载大型二进制文件部分的最快方法,但文件是否太大而无法更快地完成此操作?
我没有加载那么多数据...我正在使用的测试文件是 37GB,对于 256 个通道之一,我只为整个跟踪加载 149MB...也许是 fread 的“跳过”功能是次优的吗?
系统详细信息:MATLAB 2017a、Windows 7、64 位、32GB RAM