我正在使用iTextSharp从PDF中读取文本内容.我也能读到这一点.但我正在丢失文字格式,如字体,颜色等.有没有办法获得格式.
以下是我用于确切文本的代码段 -
PdfReader reader = new PdfReader("F:\\EBooks\\AspectsOfAjax.pdf");
textBox1.Text = ExtractTextFromPDFBytes(reader.GetPageContent(1));
private string ExtractTextFromPDFBytes(byte[] input)
{
if (input == null || input.Length == 0) return "";
try
{
string resultString = "";
// Flag showing if we are we currently inside a text object
bool inTextObject = false;
// Flag showing if the next character is literal e.g. '\\' to get a '\' character or '\(' to get '('
bool nextLiteral = false;
// () Bracket nesting level. Text appears …Run Code Online (Sandbox Code Playgroud) 我有一个PDF文件,我正在使用ITextExtractionStrategy.Now从字符串中读取字符串我正在采用子字符串My name is XYZ,需要从PDF文件中获取子字符串的矩形坐标但不能这样做.在googling我知道那个LocationTextExtractionStrategy,但没有得到如何使用该工具来获取坐标.
这是代码..
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
string getcoordinate="My name is XYZ";
Run Code Online (Sandbox Code Playgroud)
如何使用ITEXTSHARP获取此子字符串的直角坐标..
请帮忙.
我想知道我们是否可以突出显示已PDF使用的文本(颜色)itextsharp?
我看到了创建新PDF等示例,同时我们可以应用颜色.我正在寻找可以从PDF获取大量文本并应用颜色并保存的地方.
这是我想要完成的事情,阅读PDF文件,解析文本并根据业务规则突出显示文本.
任何第三方dll建议也有效,这是我正在寻找的第一步opensource iTextsharp library.
我的目标是从PDF中检索可能在表格结构中的数据到excel文件.
使用带有iTextSharp的LocationTextExtractionStrategy,我们可以以纯文本形式获取字符串数据,页面内容从左到右.
我怎样才能在这期间向前迈进
PdfTextExtractor.GetTextFromPage(reader,i,new LocationTextExtractionStrategy())
我可以使文本在结果字符串中保留其坐标.
例如,如果pdf中的第一行文本右对齐,则结果字符串必须包含尾随空格或空格,以保持内容右对齐.
请提出一些建议,我将如何继续实现同样的目标.