标签: pdf-parsing

haskell - 解析/读取.pdf文件的内容

haskell有没有可能只解密.pdf文件,读入内容并返回一个字符串?而且,如果有的话,你能给我一个例子,例如:

...
import necessaryPackage
...
pdfParsing = ...
...
Run Code Online (Sandbox Code Playgroud)

提前致谢.

最诚挚的问候,吉米

pdf parsing haskell pdf-parsing ghc

6
推荐指数
1
解决办法
1144
查看次数

使用itextsharp从pdf获取文本段落

有什么逻辑可以使用itextsharp从pdf文件中获取段落文本吗?我知道pdf只支持文本的运行,很难确定哪些文本运行与哪个段落相关,而且我知道没有任何<p>标签或其他标签确定pdf中的段落.但是我试图获得文本运行的坐标来从其坐标构建段落但没有运气:(.我的代码片段在这里:

private StringBuilder result = new StringBuilder();
    private Vector lastBaseLine;
    //to store run of texts 
    public List<string> strings = new List<String>();
    //to store run of texts Coordinate (Y coordinate)
    public List<float> baselines = new List<float>();

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        if ((this.lastBaseLine != null) && (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]))
        {
            if ((!string.IsNullOrEmpty(this.result.ToString())))
            {
                this.baselines.Add(this.lastBaseLine[Vector.I2]);
                this.strings.Add(this.result.ToString());
            }
            result = new StringBuilder();
        }
        this.result.Append(renderInfo.GetText());
        this.lastBaseLine = curBaseline;
    }
Run Code Online (Sandbox Code Playgroud)

任何机构都有与此问题相关的任何逻辑吗?

c# asp.net itextsharp pdf-parsing

6
推荐指数
1
解决办法
2216
查看次数

iTextSharp 4.1.6和5.x版本之间的区别

我们正在开发一个与我们的系统一起使用的Pdf解析器.要求是这样的,我们将所有信息存储在任何pdf文档上,并且应该能够复制文档(与原始文档的更改很少).

我们做了一些谷歌搜索,发现iTextSharp是我们目的的最佳伴侣.我们正在使用.net开发我们的项目.

您可能已经猜到了我在标题中提到要求比较特定版本的iTextSharp(4.1.6 vs 5.x).我们知道4.1.6是具有LGPL/MPL许可证的iTextSharp的最后一个版本.5.x版本是AGPL.

我们希望在选择LGPL版本之前对版本进行很好的比较,或者我们购买AGPL的许可证(我们不想发布我们的代码).

我做了一些浏览iTextSharp中的修订更改,但我想知道是否存在任何内容,在版本之间进行了很好的比较.

提前致谢!

pdf licensing itext itextsharp pdf-parsing

6
推荐指数
1
解决办法
1万
查看次数

PDFminer空输出

使用pdfminer(pdf2txt.py)处理文件时,我收到空输出:

dan@work:~/project$ pdf2txt.py  docs/homericaeast.pdf 

dan@work:~/project$ 
Run Code Online (Sandbox Code Playgroud)

任何人都可以说这个文件有什么问题,我可以做些什么来从中获取数据?

这是dumppdf.py docs/homericaeast.pdf输出:

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>
Run Code Online (Sandbox Code Playgroud)

python pdf pdf-parsing pdfminer

6
推荐指数
1
解决办法
1067
查看次数

关于解析 pdf 时没有 Unicode 映射错误

我有一堆 pdf 文件(来自不同来源),我想从中提取文本(不幸的是无法附加文件)。

当前解析结果

  1. Tika 默默地返回文本,其中缺少许多所需的数据。
  2. 直接使用 PDFBox 会给出一堆警告(见下文),并且还会删除它无法识别的数据
  3. Adobe Acrobat Reader(另存为文本操作)保留原始文档结构,但在有问题的字体处放置“”

到目前为止,我从 PDFBox 中看到的所有警告组合在一起:

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …
Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

6
推荐指数
0
解决办法
4960
查看次数

在Hadoop Map Reduce中解析PDF文件

我必须在Hadoop的Map Reduce程序中解析HDFS中的PDF文件.所以我从HDFS获取PDF文件作为输入拆分,它必须被解析并发送到Mapper类.为了实现这个InputFormat,我已经通过了这个链接.如何解析这些输入拆分并将其转换为文本格式?

pdf hadoop mapreduce pdf-parsing

5
推荐指数
1
解决办法
8615
查看次数

Python PDFMiner 错误:“没有 /Root 对象!-这真的是 PDF 吗?”

我收到此错误“没有 /Root 对象!- 这真的是 PDF 吗?” 使用我的 MAC 计算机和 Python 2.7 和PDFMiner版本 20110515。pdf 文件没有损坏,因为具有相同文件的相同程序可以在我的 PC 计算机上运行!我也尝试了很多 pdf,并且所有这些都存在此错误。关于我应该在我的 MAC 中更改什么以避免出现此错误的任何想法?

python pdf macos pdf-parsing document-root

5
推荐指数
1
解决办法
3026
查看次数

GhostScript作为Saas的商业用途是否需要许可证?

我正在做一个项目.用户可以在其中上传PDF并将其转换为图像,因此我使用了GhostScript DLL(gsdll32.dll).现在在我的应用程序中,我希望从用户收取每月订阅费用,以便我可以为他们提供更多功能.

但我既不了解许可条款,也不知道关于ghostscript的情况和条件.那么我是否需要购买任何许可证或者是否有任何其他免费的C#库,可用于pdf处理,我可以在商业应用程序中使用而无需获得任何许可证?

我更喜欢任何免费的c#库(Premium Saas或直接应用程序销售).

谢谢如果有人有上述实时经验,请帮帮我.

c# pdf open-source ghostscript pdf-parsing

5
推荐指数
1
解决办法
4787
查看次数

Apache PDFBox删除字符之间的空格

我们使用PDFBox从PDF中提取文本.

某些PDF文本无法正确提取.下图显示了PDF作为图像的一部分:

在此输入图像描述

文本提取后,我们得到以下文本:
3,8 5 EU R 1 Netto 38,50 EUR 4,00
(在','和'8'之间添加空格)

这是我们的代码:

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);
Run Code Online (Sandbox Code Playgroud)

我们试图使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有正面效果.

备用库'iText'正确提取文本,字符之间没有空格.但由于许可证问题,我们无法使用它.

有任何想法吗?谢谢.

编辑:我们使用的是1.8.9版本.我们还尝试了快照版本2.0.0而没有任何效果.

text-extraction pdf-parsing pdfbox

5
推荐指数
1
解决办法
2768
查看次数

识别并提取 PDF 文档的特定部分

我有几份 PDF 格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。OCR 并不理想,因为它不能很好地维护代码/方程格式。最终目标是制作闪存卡,每张卡都包含整个问题的图像。问题可以在同一页上,也可以由多个部分组成(例如 1a、2f 等)。

目前,我正在考虑使用 OCR 来提取问题标签(例如 1、2、3 等),然后找到它们在 pdf 中的位置,并提取从一个问题的开头到下一个问题的开头的图像。是否有任何框架或软件可以做到这一点或提供某种替代方法来使这更容易?

python pdf ocr image-recognition pdf-parsing

5
推荐指数
1
解决办法
1万
查看次数