相关疑难解决方法(0)

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

141
推荐指数

10
解决办法

23万
查看次数

是否有一个OCR库可以输出图像中找到的单词坐标？

根据我的经验,OCR库往往只输出图像内,但没有找到文本,其中文本被发现.是否有一个OCR库可以输出图像中找到的单词以及x, y, width, height找到这些单词的坐标()？

28
推荐指数

3
解决办法

2万
查看次数

tesseract中命令行模式下的文本块位置和大小检测

tesseract OCR具有命令行界面，该界面使我们能够从带有某些参数的图像中识别文本。

输入argumetns是imagename（路径图）outputbase和（识别文本的名称）-psm pagesegmode参数。

pagesegmode的值为：
 0 =仅方向和脚本检测（OSD）。
 1 =使用OSD进行自动页面分割。
 2 =自动页面分割，但没有OSD或OCR
 3 =全自动页面分割，但没有OSD。（默认）
 4 =假设一列可变大小的文本。
 5 =假定单个统一的垂直对齐文本块。
 6 =假设一个统一的文本块。
 7 =将图像视为单个文本行。
 8 =将图像视为一个单词。
 9 =将图像当作一个单词圈起来。
 10 =将图像视为单个字符。
-l lang和/或-psm pagesegmode必须出现在anyconfigfile之前。

但是它可以将识别的文本块的位置和大小写到特定文件中还是它是内部信息？

ocr tesseract textblock command-line-arguments

4
推荐指数

1
解决办法

8854
查看次数

标签统计

ocr ×2

command-line-arguments ×1

ghostscript ×1

pdf ×1

text ×1

text-extraction ×1