我需要阅读PDF并将其转换为.Txt。我尝试iTextSharp作为免费库,它运行良好但与 .NET Core 不兼容。
iTextSharp 中的代码片段
string prevPage = "";
for (int page = 5; page <= reader.NumberOfPages; page++)
{
ITextExtractionStrategy its = new SimpleTextExtractionStrategy();
var s = PdfTextExtractor.GetTextFromPage(reader, page, its);
if (prevPage != s) sb.Append(s);
prevPage = s;
}
reader.Close();
Run Code Online (Sandbox Code Playgroud)
另外,我试过,iTextSharp.LGPLv2.Core但效果不如另一个,结果也不准确。
缺点之一iTextSharp.LGPLv2.Core是它不支持编码并导致提取的 PDF 文本中出现噪声
我的 stringbuilder 如下图所示: