标签: pdf-parsing

haskell - 解析/读取.pdf文件的内容

haskell有没有可能只解密.pdf文件,读入内容并返回一个字符串？而且,如果有的话,你能给我一个例子,例如:

...
import necessaryPackage
...
pdfParsing = ...
...

Run Code Online (Sandbox Code Playgroud)

提前致谢.

最诚挚的问候,吉米

pdf parsing haskell pdf-parsing ghc

jim*_*myt

lucky-day

6
推荐指数

1
解决办法

1144
查看次数

使用itextsharp从pdf获取文本段落

有什么逻辑可以使用itextsharp从pdf文件中获取段落文本吗？我知道pdf只支持文本的运行,很难确定哪些文本运行与哪个段落相关,而且我知道没有任何<p>标签或其他标签确定pdf中的段落.但是我试图获得文本运行的坐标来从其坐标构建段落但没有运气:(.我的代码片段在这里:

private StringBuilder result = new StringBuilder();
    private Vector lastBaseLine;
    //to store run of texts 
    public List<string> strings = new List<String>();
    //to store run of texts Coordinate (Y coordinate)
    public List<float> baselines = new List<float>();

    public void RenderText(iTextSharp.text.pdf.parser.TextRenderInfo renderInfo)
    {
        Vector curBaseline = renderInfo.GetBaseline().GetStartPoint();
        if ((this.lastBaseLine != null) && (curBaseline[Vector.I2] != lastBaseLine[Vector.I2]))
        {
            if ((!string.IsNullOrEmpty(this.result.ToString())))
            {
                this.baselines.Add(this.lastBaseLine[Vector.I2]);
                this.strings.Add(this.result.ToString());
            }
            result = new StringBuilder();
        }
        this.result.Append(renderInfo.GetText());
        this.lastBaseLine = curBaseline;
    }

Run Code Online (Sandbox Code Playgroud)

任何机构都有与此问题相关的任何逻辑吗？

c# asp.net itextsharp pdf-parsing

Bib*_*tam

2013 06-14

6
推荐指数

1
解决办法

2216
查看次数

iTextSharp 4.1.6和5.x版本之间的区别

我们正在开发一个与我们的系统一起使用的Pdf解析器.要求是这样的,我们将所有信息存储在任何pdf文档上,并且应该能够复制文档(与原始文档的更改很少).

我们做了一些谷歌搜索,发现iTextSharp是我们目的的最佳伴侣.我们正在使用.net开发我们的项目.

您可能已经猜到了我在标题中提到要求比较特定版本的iTextSharp(4.1.6 vs 5.x).我们知道4.1.6是具有LGPL/MPL许可证的iTextSharp的最后一个版本.5.x版本是AGPL.

我们希望在选择LGPL版本之前对版本进行很好的比较,或者我们购买AGPL的许可证(我们不想发布我们的代码).

我做了一些浏览iTextSharp中的修订更改,但我想知道是否存在任何内容,在版本之间进行了很好的比较.

提前致谢!

pdf licensing itext itextsharp pdf-parsing

Sha*_*nky

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

PDFminer空输出

使用pdfminer(pdf2txt.py)处理文件时,我收到空输出:

dan@work:~/project$ pdf2txt.py  docs/homericaeast.pdf 

dan@work:~/project$

Run Code Online (Sandbox Code Playgroud)

任何人都可以说这个文件有什么问题,我可以做些什么来从中获取数据？

这是dumppdf.py docs/homericaeast.pdf输出:

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

<trailer>
<dict size="4">
<key>Info</key>
<value><ref id="2" /></value>
<key>Root</key>
<value><ref id="1" /></value>
<key>ID</key>
<value><list size="2">
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
<string size="16">on&#10;&#164;&#181;F&#164;5&#193;&#62;&#243;_&#253;v&#172;`</string>
</list></value>
<key>Size</key>
<value><number>27</number></value>
</dict>
</trailer>

Run Code Online (Sandbox Code Playgroud)

python pdf pdf-parsing pdfminer

Dan*_*kin

lucky-day

6
推荐指数

1
解决办法

1067
查看次数

关于解析 pdf 时没有 Unicode 映射错误

我有一堆 pdf 文件（来自不同来源），我想从中提取文本（不幸的是无法附加文件）。

当前解析结果：

Tika 默默地返回文本，其中缺少许多所需的数据。
直接使用 PDFBox 会给出一堆警告（见下文），并且还会删除它无法识别的数据
Adobe Acrobat Reader（另存为文本操作）保留原始文档结构，但在有问题的字体处放置“”

到目前为止，我从 PDFBox 中看到的所有警告组合在一起：

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …

Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

exe*_*nza

2020 08-11

6
推荐指数

0
解决办法

4960
查看次数

在Hadoop Map Reduce中解析PDF文件

我必须在Hadoop的Map Reduce程序中解析HDFS中的PDF文件.所以我从HDFS获取PDF文件作为输入拆分,它必须被解析并发送到Mapper类.为了实现这个InputFormat,我已经通过了这个链接.如何解析这些输入拆分并将其转换为文本格式？

pdf hadoop mapreduce pdf-parsing

WR1*_*R10

lucky-day

5
推荐指数

1
解决办法

8615
查看次数

Python PDFMiner 错误：“没有 /Root 对象！-这真的是 PDF 吗？”

我收到此错误“没有 /Root 对象！- 这真的是 PDF 吗？” 使用我的 MAC 计算机和 Python 2.7 和PDFMiner版本 20110515。pdf 文件没有损坏，因为具有相同文件的相同程序可以在我的 PC 计算机上运行！我也尝试了很多 pdf，并且所有这些都存在此错误。关于我应该在我的 MAC 中更改什么以避免出现此错误的任何想法？

python pdf macos pdf-parsing document-root

Mah*_*aly

2013 06-27

5
推荐指数

1
解决办法

3026
查看次数

GhostScript作为Saas的商业用途是否需要许可证？

我正在做一个项目.用户可以在其中上传PDF并将其转换为图像,因此我使用了GhostScript DLL(gsdll32.dll).现在在我的应用程序中,我希望从用户收取每月订阅费用,以便我可以为他们提供更多功能.

但我既不了解许可条款,也不知道关于ghostscript的情况和条件.那么我是否需要购买任何许可证或者是否有任何其他免费的C#库,可用于pdf处理,我可以在商业应用程序中使用而无需获得任何许可证？

我更喜欢任何免费的c#库(Premium Saas或直接应用程序销售).

谢谢如果有人有上述实时经验,请帮帮我.

c# pdf open-source ghostscript pdf-parsing

obj*_*ass

lucky-day

5
推荐指数

1
解决办法

4787
查看次数

Apache PDFBox删除字符之间的空格

我们使用PDFBox从PDF中提取文本.

某些PDF文本无法正确提取.下图显示了PDF作为图像的一部分:

在此输入图像描述

文本提取后,我们得到以下文本:
3,8 5 EU R 1 Netto 38,50 EUR 4,00
(在','和'8'之间添加空格)

这是我们的代码:

            PDDocument pdf = PDDocument.load(reuseableInputStream);
            PDFTextStripper pdfStripper = new PDFTextStripper();
            pdfStripper.setSortByPosition(true);
            String text = pdfStripper.getText(pdf);

Run Code Online (Sandbox Code Playgroud)

我们试图使用PDFTextStripper属性'AverageCharTolerance'和'SpacingTolerance'没有正面效果.

备用库'iText'正确提取文本,字符之间没有空格.但由于许可证问题,我们无法使用它.

有任何想法吗？谢谢.

编辑:我们使用的是1.8.9版本.我们还尝试了快照版本2.0.0而没有任何效果.

text-extraction pdf-parsing pdfbox

Tob*_*asH

2015 04-11

5
推荐指数

1
解决办法

2768
查看次数