小编Cli*_*int的帖子

使用任何开源/非许可包在 .NET Core 上从 PDF 中读取文本

我需要阅读PDF并将其转换为.Txt。我尝试iTextSharp作为免费库，它运行良好但与 .NET Core 不兼容。

iTextSharp 中的代码片段

string prevPage = "";
for (int page = 5; page <= reader.NumberOfPages; page++)
{
  ITextExtractionStrategy its = new SimpleTextExtractionStrategy();
  var s = PdfTextExtractor.GetTextFromPage(reader, page, its);
  if (prevPage != s) sb.Append(s);
  prevPage = s;
}
reader.Close();

Run Code Online (Sandbox Code Playgroud)

另外，我试过，iTextSharp.LGPLv2.Core但效果不如另一个，结果也不准确。

缺点之一iTextSharp.LGPLv2.Core是它不支持编码并导致提取的 PDF 文本中出现噪声

我的 stringbuilder 如下图所示：