Hoo*_*voo 3 python text image postscript
我想提取postscript图像文件中包含的文本信息(我的轴标签的标题).这些图像是用pgplot生成的.我在Ubuntu上尝试过ps2ascii和ps2txt,但它们没有产生任何有用的结果.有谁知道另一种方法?
谢谢
pgplot可能直接用行而不是文本绘制文本中的字体.特别是因为pgplot旨在输出到包括绘图仪在内的大量设备,您必须这样做.
编辑:
如果你有足够的图表值得付出努力,那么这是一个非常简单的图像处理任务.将每个页面转换为像tiff这样的东西,在单色铬门槛中将图像转换为二进制,文本将是最大像素值.
使用模板匹配技术.如果您有一组有限的可能标签,那么只需匹配整个标签,您甚至可以从正确尺寸和旋转的模板开始.然后将每个图标记为包含标签[1-n],无需读取实际文本.
如果您不知道标签,那么您仍然可以非常轻松地进行OCR,只需提取轴周围的区域,将其旋转为垂直 - 并使用Google的免费OCR lib
如果您有pgplot,您甚至可以直接为OCR或模板图像构建训练集,而不必从图像列表中获取它们
| 归档时间: |
|
| 查看次数: |
1073 次 |
| 最近记录: |