核心4D图像tif存储为hdf5 python

Question

核心4D图像tif存储为hdf5 python

use*_*229 3 python h5py dask

我有27GB的2D Tiff文件，它们代表3D图像电影的片段。我希望能够像分割一个简单的numpy4d数组一样对这些数据进行切片。看起来dask.array是一个很好的工具，用于将数组作为hdf5文件存储在内存中后即可对其进行干净处理。

如果这些文件不能全部放入内存，我该如何首先将它们存储为hdf5文件。我是h5.py和数据库的新手。

谢谢。

Answer 1

MRo*_*lin 5

编辑：使用`dask.array`的`imread`功能

从那时起，dask 0.7.0您无需将图像存储在HDF5中。imread直接使用该函数：

In [1]: from skimage.io import imread

In [2]: im = imread('foo.1.tiff')

In [3]: im.shape
Out[3]: (5, 5, 3)

In [4]: ls foo.*.tiff
foo.1.tiff  foo.2.tiff  foo.3.tiff  foo.4.tiff

In [5]: from dask.array.image import imread

In [6]: im = imread('foo.*.tiff')

In [7]: im.shape
Out[7]: (4, 5, 5, 3)

Run Code Online (Sandbox Code Playgroud)

将图片存储到HDF5的较早答案

数据提取通常是最棘手的问题。Dask.array没有与图像文件的任何自动集成（尽管如果有足够的兴趣，这是完全可行的。）幸运的h5py是，由于h5py支持numpy切片语法，因此将数据移动到是很容易的。在以下示例中，我们将创建一个空的h5py数据集，然后在for循环中将四个小tiff文件存储到该数据集中。

首先，我们获得图像的文件名（请原谅玩具数据集。我周围没有任何现实的东西。）

In [1]: from glob import glob
In [2]: filenames = sorted(glob('foo.*.tiff'))
In [3]: filenames
Out[3]: ['foo.1.tiff', 'foo.2.tiff', 'foo.3.tiff', 'foo.4.tiff']

Run Code Online (Sandbox Code Playgroud)

加载并检查样本图像

In [4]: from skimage.io import imread
In [5]: im = imread(filenames[0])  # a sample image
In [6]: im.shape  # tiny image
Out[6]: (5, 5, 3)
In [7]: im.dtype
Out[7]: dtype('int8')

Run Code Online (Sandbox Code Playgroud)

现在，我们将制作一个HDF5文件和'/x'在该文件中称为HDF5数据集。

In [8]: import h5py
In [9]: f = h5py.File('myfile.hdf5')  # make an hdf5 file
In [10]: out = f.require_dataset('/x', shape=(len(filenames), 5, 5, 3), dtype=im.dtype)

Run Code Online (Sandbox Code Playgroud)

太好了，现在我们可以一次将一个图像插入HDF5数据集。

In [11]: for i, fn in enumerate(filenames):
   ....:     im = imread(fn)
   ....:     out[i, :, :, :] = im

Run Code Online (Sandbox Code Playgroud)

此时dask.array可以out愉快地包裹

In [12]: import dask.array as da
In [13]: x = da.from_array(out, chunks=(1, 5, 5, 3))  # treat each image as a single chunk
In [14]: x[::2, :, :, 0].mean()
Out[14]: dask.array<x_3, shape=(), chunks=(), dtype=float64>

Run Code Online (Sandbox Code Playgroud)

如果您希望看到更多对图像堆栈的本机支持，那么我建议您提出一个问题。dask.array直接在不通过HDF5的情况下直接使用您的tiff文件堆栈就很容易了。

归档时间：	10 年，5 月前
查看次数：	1461 次
最近记录：	10 年，5 月前

核心4D图像tif存储为hdf5 python

编辑：使用dask.array的imread功能

将图片存储到HDF5的较早答案

编辑：使用`dask.array`的`imread`功能