如何使用带有Pdfreader类的itextsharp读取PDF内容.我的PDF可能包含纯文本或文本图像.
我看到很多关于使用C#生成PDF文件的问题和答案.
我有一个相关但不同的任务.
我已经创建了大量的PDF文件,我想用正则表达式(RegExs)验证内容的某些部分.我想用C#打开PDF,并能够以接近线性的方式读出文本.
如果页眉,页脚,任何侧边栏等被跳过或读取顺序,则无关紧要.我只是追求尽可能多的主体文本.
你能指出我的工具,库,API等,这将使我能够以编程方式阅读PDF文件中的文本吗?
我正在寻找一些示例代码,演示如何使用Lucene.Net和C#索引PDF文档.谷歌出现了一些,但没有一个,我觉得有帮助.
可能重复:
在.Net中阅读PDF文档
是否有任何免费的库来呈现pdf.我需要解析pdf并分别显示图像和文本...感谢任何信息!
我正在使用iTextSharp从pdfs中提取数据.我偶然发现了以下问题所描述的问题:
我将其转换为pdf,使用其中一个免费的在线转换器,生成一个类似的pdf(当我生成pdf时,我没有将样式应用于excel):

现在,使用iTextSharp从pdf中提取数据,返回以下字符串作为提取的数据:
如您所见,包裹的单元格数据会生成新行,其中每个包裹的数据由一个空格分隔.
问题:现在,如何确定给定的包装数据所属的列?如果只iTextSharp保留与列一样多的空格......
在我的示例中 - 如何识别111属于哪个列?
更新1:
只要字段有多个单词(即包含空格),就会出现类似的问题.例如,考虑上面示例的第1行:
说它看起来像
---A--- ---B--- ---C--- ---D---
aaaaaaa bb b cccc
Run Code Online (Sandbox Code Playgroud)
iText将再次生成这个提取,如下所示:
aaaaaaa bb b cccc
Run Code Online (Sandbox Code Playgroud)
这里的问题相同,必须确定每列的边界.