相关疑难解决方法(0)

如何从特定矩形区域内的pdf文档中提取文本?

我必须从特定矩形区域内的pdf文档中提取文本.工作流程如下.首先,pdf被转换为jpg图像.然后用户在图片顶部绘制选择矩形.然后我不知何故需要从该选择区域内的pdf doc中提取所有文本.有什么建议从C#可以使用的免费软件pdf库吗?

c# pdf

5
推荐指数
2
解决办法
1万
查看次数

当我使用 iText 从 PDF 文件中提取文本时,我从前几页获取值

我试图从多页 PDF 文件中每一页的特定位置提取一段文本。

我有文本的位置,我能够在第一页上正确提取它。然而,在第一页之后的页面上,提取的文本似乎正在积累。

例如,如果第 1 页上的文本值是“A”,第 2 页是“B”,第 3 页是“C”,那么我通过 FOR 循环在每次迭代的输出字符串中收到以下值:

循环1:输出= A

循环2:输出= BA

循环3:输出= CBA

我在我的项目中使用 iTextSharp,用 C# 编写。

任何帮助,将不胜感激。

var reader = new PdfReader(foregroundFile);

RectangleJ customerIdRectangle = new RectangleJ(0, 495, 108, 27);
RenderFilter[] filters = new RenderFilter[1];
LocationTextExtractionStrategy regionFilter = new LocationTextExtractionStrategy();
filters[0] = new RegionTextRenderFilter(customerIdRectangle);
FilteredTextRenderListener strategy = new FilteredTextRenderListener(regionFilter, filters);

for (int i = 1; i <= reader.NumberOfPages; i++)
{
    string output = "";
    output = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
    Console.WriteLine(output);
}
Run Code Online (Sandbox Code Playgroud)

c# pdf itext itextsharp

3
推荐指数
1
解决办法
2277
查看次数

标签 统计

c# ×2

pdf ×2

itext ×1

itextsharp ×1