如何从PDF中删除蒙版或损坏的图像?

sam*_*sam 5 ubuntu ruby-on-rails poppler

我正在开发Ruby on Rails应用程序,以从PDF文件中提取文本和图像.在提取图像时,其中很少会被破坏.

提取后有没有办法识别那些损坏的图像?有谁知道他们为什么会被腐化?

我正在使用pdftohtmlpdftotext(poppler)Ubuntu实用程序.

提前致谢.