小编Vad*_*nko的帖子

如何使用itextsharp从表结构化PDF中读取数据？

我从pdf文件中读取一些数据时遇到问题.
我的文件是结构化的,它包含表格和纯文本.标准解析器从同一行的不同列读取数据.例如:

Some Table Header  
Data Col1a     Data Col2a      Data Col3a
Data Col1b     Data Col2b      Data Col3b
               Data Col2c

用这个代码

        PdfReader reader = new PdfReader(pdfName);

        List<String> text = new List<String>();
        String page;
        List<String> pageStrings;
        string[] separators = { "\n", "\r\n" };

        for (int i = 1; i <= reader.NumberOfPages; i++)
        {
            page = PdfTextExtractor.GetTextFromPage(reader, i);
            pageStrings = new List<string>(page.Split(separators, StringSplitOptions.RemoveEmptyEntries));
            text.AddRange(pageStrings);

        }

        reader.Close();

        return text;

Run Code Online (Sandbox Code Playgroud)

将被连接成字符串:

Some Table Header
Data Col1a Data Col2a Data Col3a  
Data Col1b Data Col2b Data …

c# itextsharp

Vad*_*nko

2015 08-17

5
推荐指数

1
解决办法

1万
查看次数

标签统计

c# ×1

itextsharp ×1

如何使用itextsharp从表结构化PDF中读取数据？

标签 统计

小编Vad_nko的帖子

标签统计