我正在使用iTextSharp从PDF中读取文本内容.我也能读到这一点.但我正在丢失文字格式,如字体,颜色等.有没有办法获得格式.
以下是我用于确切文本的代码段 -
PdfReader reader = new PdfReader("F:\\EBooks\\AspectsOfAjax.pdf");
textBox1.Text = ExtractTextFromPDFBytes(reader.GetPageContent(1));
private string ExtractTextFromPDFBytes(byte[] input)
{
if (input == null || input.Length == 0) return "";
try
{
string resultString = "";
// Flag showing if we are we currently inside a text object
bool inTextObject = false;
// Flag showing if the next character is literal e.g. '\\' to get a '\' character or '\(' to get '('
bool nextLiteral = false;
// () Bracket nesting level. Text appears …Run Code Online (Sandbox Code Playgroud) 我正在使用iTextSharp和reader.GetPageContent方法从PDF中提取文本.我需要找到文档中找到的每个单词的矩形/位置.有没有办法使用iTextSharp获取PDF中单词的矩形/位置?
我在从 pdf 文件读取表格时遇到问题。这是一个非常简单的 pdf 文件,包含一些文本和一个表格。我使用的工具是 itextsharp。我知道 PDF 中没有表格概念。经过一番谷歌搜索,有人说可以使用 itextsharp + 自定义 ITextExtractionStrategy 来实现。但我不知道如何开始。有人可以给我一些提示吗?或一小段示例代码?
干杯
我想知道我们是否可以突出显示已PDF使用的文本(颜色)itextsharp?
我看到了创建新PDF等示例,同时我们可以应用颜色.我正在寻找可以从PDF获取大量文本并应用颜色并保存的地方.
这是我想要完成的事情,阅读PDF文件,解析文本并根据业务规则突出显示文本.
任何第三方dll建议也有效,这是我正在寻找的第一步opensource iTextsharp library.
我正在努力将 PDF 转换为文本。我可以正确地从 PDF 中获取文本,但它的表结构很复杂。我知道 PDF 不支持表格结构,但我认为有一种方法可以正确获取单元格。嗯,例如:
我想转换成这样的文本:
> This is first example.
> This is second example.
Run Code Online (Sandbox Code Playgroud)
但是,当我将 PDF 转换为文本时,这些数据如下所示:
> This is This is
> first example. second example.
Run Code Online (Sandbox Code Playgroud)
如何才能正确获取值?
- 编辑:
以下是我如何将 PDF 转换为文本:
OpenFileDialog ofd = new OpenFileDialog();
string filepath;
ofd.Filter = "PDF Files(*.PDF)|*.PDF|All Files(*.*)|*.*";
if (ofd.ShowDialog() == DialogResult.OK)
{
filepath = ofd.FileName.ToString();
string strText = string.Empty;
try
{
PdfReader reader = new PdfReader(filepath);
for (int page = 1; page < reader.NumberOfPages; page++)
{
ITextExtractionStrategy its …Run Code Online (Sandbox Code Playgroud)