小编dar*_*mir的帖子

使用 iText7 + C# 读取 pdf 中的文本,无法识别文本

我想从pdf文档中读取数据。我使用 iText7:

\n\n
var src = "<file location>";\nvar pdfDocument = new PdfDocument(new PdfReader(src));\nvar strategy = new LocationTextExtractionStrategy();\nfor (int i = 1; i <= pdfDocument.GetNumberOfPages(); ++i)\n{\n     var page = pdfDocument.GetPage(i);\n     string text = PdfTextExtractor.GetTextFromPage(page, strategy);\n     string processed = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));\n}\npdfDocument.Close();\n
Run Code Online (Sandbox Code Playgroud)\n\n

它可以工作,但无法识别字母。所有文字看起来都像

\n\n

"\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\ xef\xbf\xbd\xef\xbf\xbd\\n\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd \xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef \xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf \xbd\xef\xbf\xbd\xef\xbf\xbd\\n\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\ xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\ xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\ xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\ xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\xef\xbf\xbd\\n

\n\n

它是英文的,所以我预计编码不会出现任何问题。造成此问题的原因是什么以及如何解决?

\n

c# pdf itext

9
推荐指数
1
解决办法
2万
查看次数

标签 统计

c# ×1

itext ×1

pdf ×1