如何从特定矩形区域内的pdf文档中提取文本?

mmi*_*ins 5 c# pdf

我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?

sha*_*dra 6

此代码将使用itextsharp在矩形坐标的基础上完美地提取pdf数据

    List<string> linestringlist = new List<string>();
    PdfReader reader = new PdfReader(pdfFilename);
    iTextSharp.text.Rectangle rect = new iTextSharp.text.Rectangle(coordinate1, coordinate2, coordinate3, coordinate4);
    RenderFilter[] renderFilter = new RenderFilter[1];
    renderFilter[0] = new RegionTextRenderFilter(rect);
    ITextExtractionStrategy textExtractionStrategy = new FilteredTextRenderListener(new LocationTextExtractionStrategy(), renderFilter);
    string text = PdfTextExtractor.GetTextFromPage(reader, 1, textExtractionStrategy);
Run Code Online (Sandbox Code Playgroud)

  • 你在哪个地方使用`linestringlist`? (2认同)

And*_*ash 4

我同意,OCR 不是这里使用的方法。您需要一个可以提取文本以及边界框坐标的 PDF 库。

QuickPDF 是一个商业图书馆 (www.quickpdf.com),可以以非常合理的价格 249 美元提取所需的信息。 http://www.quickpdflibrary.com/help/quickpdf/DAExtractPageText.php是您正在寻找的功能。这将提取整个页面的文本,然后您需要使用简单的点和/或矩形函数将文本限制为所选矩形。

根据我的研究,我不认为 iText 具有此功能。

您还应该阅读如何从 PDF 中提取文本?