如何将纸质文档的照片转换为扫描文档?

Oli*_*Oli 53 scanning image-processing

我的扫描仪坏了!不过我确实有一个很好的相机,所以我拍了几张我想要扫描的文件的照片......但是它们看起来像纸的照片,而不是扫描的文件:

  • 图像不平坦
  • 照明不均匀(页面扭曲时的阴影等)
  • 文本显然没有被处理成可复制粘贴的 PDF 文本。

它们根本不适合专业用途,但它们很接近。

我正在寻找可以执行上述任何一项或所有操作的某些东西(或方法),这样我就可以将多个 JPG 文件转换为整个文件的单个 [可选] 带注释的 PDF,格式正确(A4通常)。

有什么建议(除了出去买新的扫描仪)?

wit*_*ich 50

有几种方法可以做到这一点。尽管我所有建议的方法都有一个问题,但它们不会真正使您的图片变平。仍然需要或多或少的好图片。

一种简单的方法是尝试软件ScanTailor ( scantailor.org )

sudo apt-get install scantailor 
Run Code Online (Sandbox Code Playgroud)

它需要您通过 6 个步骤来优化您的照片。在最后一步,您可以选择“均衡照明”选项,这将为您提供干净整洁的外观!


我个人通常只使用GIMP。但是你需要一些基本技能才能达到你的目标。

sudo apt-get install gimp 
Run Code Online (Sandbox Code Playgroud)
  1. 以想要的方式裁剪图片
  2. 使用Colors->Curves选项以您想要的方式操作颜色输出...

调整颜色曲线以获得漂亮干净的输出。


另一个不错的小程序是gscan2pdf,您还可以在其中加载照片并将其导出为 PDF。甚至还有一个指向 GIMP 的链接,因此您可以通过上述步骤改进照片

sudo apt-get install gscan2pdf 
Run Code Online (Sandbox Code Playgroud)

  • 哦,是的,我的错。我正在使用多个页面,因此我将使用 `find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;` 将它们转换为 png,然后使用 `pdfjoin --outfile 输出连接它们.pdf --a4paper --rotateoversize false *.png`。当我忘记如何做这一切时,请大声思考:) 再次感谢。 (2认同)
  • ScanTailor 是一个发现!!!我通常会在 Gimp 或像 gimp 这样的专有应用程序中完成所有这些工作,但是扫描裁缝只有将图像转换为类似扫描的图片所需的功能,消除所有噪音:) 比我以前使用的所有曲线都容易在 Gimp 中移动。非常感谢 !!! (2认同)

Tak*_*kat 25

要从文档的相机照片生成可打印的副本或 PDF,我们必须手动转换很多以获得类似于他从扫描仪输出的图像。大多数这些转换都可以使用 Gimp 完成。

  1. 尽量做到最好的原始源图像:

    • 选择强光以减少像素噪点,但为了避免反射、渗色或光散射不均,除非您有工作室闪光灯设备,否则不要使用闪光灯。
    • 如果可能,选择至少从两侧(上下或左右)点亮光源
    • 使用长焦而不是广角镜头从更远的距离拍摄照片。
    • 使用三脚架避免晃动伪像。
    • 将相机指向与源表面正交。
    • 包括一些与原始来源接壤的空间。
  2. 考虑将饱和度降低到灰度以获得更好的对比度并去除彩色像素伪影。

    在此处输入图片说明

  3. 调整亮度和对比度,使可能的灰色背景变白,黑色字母变黑。

    • 这可以使用 Gimp颜色 > 色阶工具快速完成,我们可以在其中拖动黑点(左)和白点(右)或使用颜色选择器选择黑/白点。

    在此处输入图片说明

    • 在不去除部分文本的情况下,可能无法去除弯角上的阴影(参见 6.)
  4. 消除坐垫变形?

    根据我们的照片镜头质量和我们使用的变焦级别,我们可能会出现一些导致文档外边框弯曲的缓冲伪影。有一些插件也可以去除这些伪像,但我们可能会发现选择我们相机的缩放级别会更快,只要它们是最小的。在裁剪 (5.) 之后,我们甚至可能不再注意到它们。因此,只有在我们的源图像在外部有很多直线的情况下,才需要去除缓冲伪影。

  5. 如果需要,旋转裁剪透视变换图像。

    与扫描仪不同,我们的相机可能无法获得与图像边界平行的光源。Gimp RotatePerspective工具将为我们提供视觉反馈,以便能够旋转或调整图像的透视图,直到文本行与页面平行。

    在此处输入图片说明
    右侧的透视工具

现在我们可以使用矩形选择工具选择文档源来裁剪文档内部的图像。

  1. 从弯曲、折叠或来自相机镜头的渐晕伪影中去除不需要的阴影

    • 这些阴影很难去除,而且没有插件或自动过滤器来帮助我们。
    • 理论上我们可以将渐变填充覆盖到这些区域,但它可能不会导致预期的结果,因此可能不值得我们花时间。
    • 因此,最快的方法是简单地使用橡皮擦工具去除文本之外的所有那些难看的阴影(我们应该避免)。

      在此处输入图片说明 已删除 -> 在此处输入图片说明

  2. 缩放图像?

    根据相机分辨率,将图像放大到扫描仪图像大小只会增加文件大小,但对图像质量没有任何好处。缩小将删除细节。因此,我们不应该缩放图像,而是从打印机对话框(或 8. 中的下方)调整打印尺寸。

  3. 生成PDF

    我们可以将我们现在很好地手动恢复的图像导入到 LibreOffice(插入 > 媒体)以

    • 定义其尺寸
    • 导出为 PDF
    • 打印(对我来说,从 LibreOffice 打印比其他任何东西都能更频繁地获得所需的结果)。