小编Pak*_*khu的帖子

Itextsharp文本提取

我在vb.net上使用itextsharp从pdf文件中获取文本内容.该解决方案适用于某些文件,但不适用于其他甚至非常简单的文件.问题是令牌字符串值设置为null(一组空方框)

token = New iTextSharp.text.pdf.PRTokeniser(pageBytes)
    While token.NextToken()
        tknType = token.TokenType()
        tknValue = token.StringValue

Run Code Online (Sandbox Code Playgroud)

我可以确保内容的长度,但我无法获得实际的字符串内容.

我意识到这取决于pdf的字体.如果我使用Acrobat或带有Courier的PdfCreator创建一个pdf(顺便说一句,这是我的visual studio编辑器中的默认字体),我可以获得所有文本内容.如果使用不同的字体构建相同的pdf,我得到空的方框.

现在的问题是,无论字体设置如何,我如何提取文本？

谢谢

c# itextsharp

Pak*_*khu

2011 02-04

18
推荐指数

2
解决办法

5万
查看次数

标签统计

c# ×1

itextsharp ×1

Itextsharp文本提取

标签 统计

小编Pak_khu的帖子

标签统计