使用 xarray 打开 netcdf 文件时如何禁用缓存？

r05*_*cky 6 python caching performance-testing netcdf python-xarray

我正在尝试设置一个性能测试来重复读取具有不同分块配置的 netcdf 文件，以最终确定特定用例的最佳块大小。我遇到的一个问题是，当使用xarray.open_dataset()读取文件时，即使缓存设置为 False，它仍然以某种方式将缓存存储在内存中。我知道这是基于两个指标的情况：

第一次运行时读取总是很慢。
使用RamMap应用程序，我看到即使关闭数据集，打开的文件仍在内存中。

这是我运行的代码：

ds = xr.open_dataset("path/to/netcdf/file", engine='h5netcdf', cache=False)

lat_dim = 2160
lon_dim = 4320
time_dim = 46
read_chunk_size = 2160

data = np.empty((time_dim, lat_dim, lon_dim))
data[0:time_dim, 0:read_chunk_size, 0:read_chunk_size] = \
ds['value'][0:time_dim, 0:read_chunk_size, 0:read_chunk_size]

ds.close()

Run Code Online (Sandbox Code Playgroud)

很明显，我对 xarray 中缓存的理解非常少。因此，如果有人能向我解释它的实际工作原理，以及如何在多运行性能测试中利用它，我将不胜感激。

归档时间：	8 年，5 月前
查看次数：	356 次
最近记录：	8 年，5 月前