小编Vad*_*nko的帖子

如何使用itextsharp从表结构化PDF中读取数据?

我从pdf文件中读取一些数据时遇到问题.
我的文件是结构化的,它包含表格和纯文本.标准解析器从同一行的不同列读取数据.例如:

Some Table Header  
Data Col1a     Data Col2a      Data Col3a
Data Col1b     Data Col2b      Data Col3b
               Data Col2c

用这个代码

        PdfReader reader = new PdfReader(pdfName);

        List<String> text = new List<String>();
        String page;
        List<String> pageStrings;
        string[] separators = { "\n", "\r\n" };

        for (int i = 1; i <= reader.NumberOfPages; i++)
        {
            page = PdfTextExtractor.GetTextFromPage(reader, i);
            pageStrings = new List<string>(page.Split(separators, StringSplitOptions.RemoveEmptyEntries));
            text.AddRange(pageStrings);

        }

        reader.Close();

        return text;
Run Code Online (Sandbox Code Playgroud)

将被连接成字符串:

Some Table Header
Data Col1a Data Col2a Data Col3a  
Data Col1b Data Col2b Data …

c# itextsharp

5
推荐指数
1
解决办法
1万
查看次数

标签 统计

c# ×1

itextsharp ×1