相关疑难解决方法(0)

使用VB.NET或C#中的itextsharp dll读取PDF内容

如何使用带有Pdfreader类的itextsharp读取PDF内容.我的PDF可能包含纯文本或文本图像.

c# vb.net pdf itextsharp

75
推荐指数
5
解决办法
20万
查看次数

用C#编程阅读PDF

我看到很多关于使用C#生成PDF文件的问题和答案.
我有一个相关但不同的任务.

我已经创建了大量的PDF文件,我想用正则表达式(RegExs)验证内容的某些部分.我想用C#打开PDF,并能够以接近线性的方式读出文本.

如果页眉,页脚,任何侧边栏等被跳过或读取顺序,则无关紧要.我只是追求尽可能多的主体文本.

你能指出我的工具,库,API等,这将使我能够以编程方式阅读PDF文件中的文本吗?

c# pdf

17
推荐指数
1
解决办法
2万
查看次数

我如何使用Lucene.Net索引PDF文件?

我正在寻找一些示例代码,演示如何使用Lucene.Net和C#索引PDF文档.谷歌出现了一些,但没有一个,我觉得有帮助.

c# implementation lucene.net

4
推荐指数
1
解决办法
7783
查看次数

C#pdf到文本转换器

可能重复:
在.Net中阅读PDF文档

是否有任何免费的库来呈现pdf.我需要解析pdf并分别显示图像和文本...感谢任何信息!

.net c# pdf

3
推荐指数
1
解决办法
7078
查看次数

iTextSharp将包装的单元格内容提取到新行中 - 您如何识别给定的包装数据片段所属的列?

我正在使用iTextSharp从pdfs中提取数据.我偶然发现了以下问题所描述的问题:

我创建了一个示例excel文件来说明.这是它的样子: 在此输入图像描述

我将其转换为pdf,使用其中一个免费的在线转换器,生成一个类似的pdf(当我生成pdf时,我没有将样式应用于excel): 在此输入图像描述

现在,使用iTextSharp从pdf中提取数据,返回以下字符串作为提取的数据:

在此输入图像描述

如您所见,包裹的单元格数据会生成新行,其中每个包裹的数据由一个空格分隔.

问题:现在,如何确定给定的包装数据所属的列?如果只iTextSharp保留与列一样多的空格......

在我的示例中 - 如何识别111属于哪个列?


更新1:

只要字段有多个单词(即包含空格),就会出现类似的问题.例如,考虑上面示例的第1行:

说它看起来像

---A---  ---B---  ---C---  ---D---
aaaaaaa    bb b     cccc      
Run Code Online (Sandbox Code Playgroud)

iText将再次生成这个提取,如下所示:

aaaaaaa bb b cccc
Run Code Online (Sandbox Code Playgroud)

这里的问题相同,必须确定每列的边界.


更新2: 我正在使用的真实pdf文件的示例: 在此输入图像描述 这就是pdf数据的样子.

itextsharp pdf-extraction

1
推荐指数
2
解决办法
1846
查看次数