小编Cli*_*int的帖子

使用任何开源/非许可包在 .NET Core 上从 PDF 中读取文本

我需要阅读PDF并将其转换为.Txt。我尝试iTextSharp作为免费库,它运行良好但与 .NET Core 不兼容。

iTextSharp 中的代码片段

string prevPage = "";
for (int page = 5; page <= reader.NumberOfPages; page++)
{
  ITextExtractionStrategy its = new SimpleTextExtractionStrategy();
  var s = PdfTextExtractor.GetTextFromPage(reader, page, its);
  if (prevPage != s) sb.Append(s);
  prevPage = s;
}
reader.Close();
Run Code Online (Sandbox Code Playgroud)

另外,我试过,iTextSharp.LGPLv2.Core但效果不如另一个,结果也不准确。

缺点之一iTextSharp.LGPLv2.Core是它不支持编码并导致提取的 PDF 文本中出现噪声

我的 stringbuilder 如下图所示:

在此处输入图片说明

c# pdf .net-core

1
推荐指数
1
解决办法
6632
查看次数

标签 统计

.net-core ×1

c# ×1

pdf ×1