我从pdf文件中读取一些数据时遇到问题.
我的文件是结构化的,它包含表格和纯文本.标准解析器从同一行的不同列读取数据.例如:
Some Table Header
Data Col1a Data Col2a Data Col3a
Data Col1b Data Col2b Data Col3b
Data Col2c
用这个代码
PdfReader reader = new PdfReader(pdfName);
List<String> text = new List<String>();
String page;
List<String> pageStrings;
string[] separators = { "\n", "\r\n" };
for (int i = 1; i <= reader.NumberOfPages; i++)
{
page = PdfTextExtractor.GetTextFromPage(reader, i);
pageStrings = new List<string>(page.Split(separators, StringSplitOptions.RemoveEmptyEntries));
text.AddRange(pageStrings);
}
reader.Close();
return text;
Run Code Online (Sandbox Code Playgroud)
将被连接成字符串:
Some Table Header Data Col1a Data Col2a Data Col3a Data Col1b Data Col2b Data …