Gry*_*yph 3 scanning ocr archiving paper document-scanning
我有一个相当大的项目,最终将造福社会,我正在寻找我能召集的所有帮助。我有大约 130,000 页需要数字化。它们中的许多都装在有订书钉的包装里,或者是用了 40 多年的纸(与今天的纸相比非常薄)。其中一些尺寸奇怪(全尺寸合法,地图和小明信片尺寸......)。但是,我们只有大约 10 天的时间来处理这项工作(一旦我们到达现场)。我们可以通宵工作。
我有一个 6 人的团队,我们完成这项任务的预算相对较少。我们考虑过现代扫描仪(例如进纸托盘 fujitsu scansnap),它可以以约 25ppm(每分钟页数)的速度处理页面,但我们担心页面被撕裂或卡住(并且我们正在努力不危及原件) . 还有订书钉的问题(可以删除......)。我们可以做平板,但是哇,手动完成这是一项艰巨的工作!对于非常大的零件,我们总是可以这样做。
我希望你们对如何实现这一点有一些非常聪明的想法......非常感谢您的时间和帮助
编辑似乎组合方法(高级纸扫描仪 + 垂直复印架)效果最好,以确保所需的页数/分钟。一个离线建议:复印机?如果我们先简单地复印整个收藏,然后让复印机继续发送数字,或者在扫描仪中复印复印件,我们会假设会发生什么。对我来说这似乎是双重工作,但我对技术的胆量不够熟悉,无法更好地了解。
如果您只需要这些传真件并且不太在意完美的演示,请考虑将相机连接到垂直复印架上。
保证不卡纸,易于针对不同的介质进行调整,对于 OCR 相当直接,并且比消费者平板要快得多。
自制的可能非常便宜,然后您可以简单地将堆栈放在相机下方,调整相机以最大程度地填充框架,然后开始翻转页面,拍摄每个页面。
自动对焦应该处理任何深度变化,您永远不需要移除订书钉/活页夹/等。
可能足够便宜,你可以让所有 6 个人工作的相机。
要记住两件事:
一个 8.5 x 11 页面 @150ppi 充满随机噪音,rgb 将被压缩约 1MB jpg,因此您将需要至少 200GB 的免费存储空间。
130,000 / 6 人 / 10 天 / 每天 8 小时 / 每小时 60 分钟 = 每分钟扫描 5 次。我认为这适用于相机,但不适用于消费级平板扫描仪。
小智 5
我无法回答要获得什么扫描仪,但是我可以从作为准备、扫描和存档各种形状和尺寸的文件的前工人的经验中说出来,纸张很少易碎,并且在数字副本中很难发现任何眼泪。
订书钉处理起来很麻烦,这取决于角落的重要性。如果它们很重要不被损坏,根据它们的顽固程度,可能需要 4-15 秒才能取下一个,有些还喜欢爆炸,所以请用手盖住订书钉以避免眼睛受伤。
去除订书钉的工具有两种,一种是带金属齿的工具,另一种是在订书钉下面滑动的棍子,然后一直滑动直到订书钉出来。
有齿的速度较慢,但很少撕裂纸张,而滑动的速度较快,但更有可能撕裂角落。
一个有经验的团队需要150-225 个工时来处理130K 份文件,没有经验的团队可能会加倍,这取决于需要如何处理纸张负载。但重要的部分是始终保持扫描仪运行。
我对扫描仪和扫描的建议是,以有效的方式为扫描人员提供工作量非常重要。收集文件并将它们与不同文件之间的一些分隔符一起运行。如果扫描仪无法实时拆分文档,请在邮寄中拆分文档。
你真的需要一个“纸慢跑器”,以避免纸张弄乱机器中的方向。WAAYY 比人类简单地摇动纸张更快更好的结果。但是我只有一台机器的经验,所以我不知道如何在不使用它的情况下区分好坏(如果有坏的)。
拥有易于加载的扫描仪比拥有高 PPM 率更重要(一切都是相对的)。如果您无法以 25ppm 的速度加载 25ppm 的扫描仪,那么您所获得的工作价值就不是 25ppm。您真的希望能够一次加载数百张纸以保持机器运转。
如果你还有什么想知道的,我也会尽量回答。