标签: pdf-reader

PDF不包含带有pdf-reader的EOF标记(PDF :: Reader :: MalformedPDFError)

我正在使用'pdf-reader'gem来阅读pdf文档的原始内容,以便我可以将它们发布(http-post)到API.要确认API实现可以从原始内容创建有效的pdf文档,我写了一个小小的要点来验证我的代码以阅读pdf内容.

出于某种原因,我总是得到'PDF不包含EOF标记(PDF :: Reader :: MalformedPDFError)'.

谁能指出我哪里出错了?

ruby pdf gem pdf-reader stringio

5
推荐指数
0
解决办法
950
查看次数

在android中使用iText阅读或打开PDF文件

我是Android应用程序开发的新手.使用iText我已经完成了PDF创建n在该创建的文件上写入现在我想要读取该PDF文件.如何使用iText打开或阅读PDF文件.

例子会很明显..

那么提前..... !!!

这是呈现PDF文件的最佳库.. ???? JPedal/iText/gnujpdf或任何其他..... ?????

pdf android pdf-reader

4
推荐指数
1
解决办法
6414
查看次数

如何从iPhone的文档目录中读取pdf文件?

目前我在iPhone应用程序中工作,我在资源文件夹(本地pdf文件)中有一个pdf文件,然后我成功读取了pdf文件(paper.pdf),下面我提到了阅读本地pdf文件供您参考.

例:

CFURLRef pdfURL = CFBundleCopyResourceURL(CFBundleGetMainBundle(), CFSTR("paper.pdf"), NULL, NULL);
pdf = CGPDFDocumentCreateWithURL((CFURLRef)pdfURL);
CFRelease(pdfURL);
Run Code Online (Sandbox Code Playgroud)

然后我试图在NSDocument目录中存储pdf文件(来自URL),成功存储.

NSData *pdfData = [[NSData alloc] initWithContentsOfURL:[NSURL URLWithString:@"http://www.msy.com.au/Parts/PARTS.pdf"]];

 NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES); 
 NSString *documentsDirectory = [paths objectAtIndex:0]; 
 NSString *filePath = [documentsDirectory stringByAppendingPathComponent:@"myPDF11.pdf"];
 [pdfData writeToFile:filePath atomically:YES];
Run Code Online (Sandbox Code Playgroud)

然后我尝试读取该pdf文件(来自NSDocument目录),但我不知道,请帮助我.

提前致谢

iphone multithreading pdf-reader ios nsdocumentdirectory

4
推荐指数
2
解决办法
1万
查看次数

如何检查PDF是否受密码保护

我正在尝试使用iText的PdfReader来检查给定的PDF文件是否受密码保护,但是我得到了这个例外:

线程"主线程"中的异常java.lang.NoClassDefFoundError:org/bouncycastle/asn1/ASN1OctetString

但是,当针对非密码保护的文件测试相同的代码时,它运行正常.这是完整的代码:

try {
    PdfReader pdf = new PdfReader("C:\\abc.pdf");
} catch (IOException e) {
    e.printStackTrace();
}
Run Code Online (Sandbox Code Playgroud)

java passwords file-permissions itext pdf-reader

4
推荐指数
4
解决办法
1万
查看次数

使用python pdfminer提取整个pdf数据

我正在使用pdfminer使用python从pdf文件中提取数据.我想提取pdf中存在的所有数据,无论它是图像,文本还是其他任何内容.我们可以在一行(或两个,如果需要,没有太多工作)这样做.任何帮助表示赞赏.提前致谢

python pdf-reader

4
推荐指数
1
解决办法
9803
查看次数

如何读取亚洲语言(中文、日语、泰语等)的PDF文件并将其存储在python中的字符串中

我正在使用 PyPDF2 在 python 中读取 PDF 文件。虽然它适用于英语和欧洲语言(带有英语字母表),但该图书馆无法阅读日语和中文等亚洲语言。我尝试过encode('utf-8')decode('utf-8')但似乎没有任何效果。它只是在提取文本时打印一个空白字符串。

我尝试过其他库,如 texttract 和 PDFMiner,但尚未成功。

当我从 PDF 复制文本并将其粘贴到笔记本上时,字符会变成某种随机格式文本(可能采用不同的编码)。

def convert_pdf_to_text(filename):
    text = ''
    pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
    if pdf.isEncrypted:
        pdf.decrypt('')
    for page in pdf.pages:
        text = text + page.extractText()
    return text
Run Code Online (Sandbox Code Playgroud)

有人能指出我正确的方向吗?

python unicode nlp text-extraction pdf-reader

4
推荐指数
1
解决办法
8383
查看次数

我们如何使用带空格的itextsharp从pdf中提取文本?

我正在使用以下方法逐行提取pdf文本.但问题是,它不是在文字和数字之间阅读空格.什么可以解决这个问题?

我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自pdf的文本行,因为它在pdf中包含空格.

public void readtextlinebyline(string filename)   {


        List<string> strlist = new List<string>();
        PdfReader reader = new PdfReader(filename);
        string text = string.Empty;
        for (int page = 1; page <= 1; page++)
        {

            text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

        }
        reader.Close();
        string[] words = text.Split('\n');
        foreach (string word in words)
        {
            strlist.Add(word);
        }

        foreach (string st in strlist)
        {
            Response.Write(st +"<br/>");
        }

   }
Run Code Online (Sandbox Code Playgroud)

我已经通过将策略更改为SimpleTextExtractionStrategy来尝试此方法,但它也不适用于我.

c# pdf extract extraction pdf-reader

3
推荐指数
2
解决办法
1万
查看次数

如何使用PDFrw在Python中从PDF中提取数据

我正在尝试使用PDFrw从某个PDF获取数据(让我们说这里的页面右上角的那个).我使用PDFrw来做到这一点.我查看了他们提供的文档(我找不到太多)并查看了他们在git上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情.我如何使用PDFrw制作一个简单的程序进入PDF(或者如果有更好的那个,则进入另一个程序)并提取某段文本.我正在考虑将其转换为HTML ...这会更容易吗?看看我上面提供的PDF作为一个例子,我想得到(让我们说)电压,这在PDF中是600瓦...我怎样才能以最简单的方式做到这一点?我找不到任何关于此的任何其他堆栈溢出问题,所以希望有人可以帮助以前使用它!

谢谢!

python pdf pdf-reader pdfrw

3
推荐指数
1
解决办法
3055
查看次数

ReportLab 和 pdfrw:导入扫描的 PDF

使用下面的代码,我试图将 pdf 页面导入现有的画布对象并保存为 PDF。这通常工作得很好,但我注意到当我尝试使用从扫描文档生成的 PDF 时,它会导致一个空白页面。有接班人吗?

from reportlab.pdfgen import canvas
from pdfrw import PdfReader
from pdfrw.buildxobj import pagexobj
from pdfrw.toreportlab import makerl

c = canvas.Canvas(Out_Folder+pdf_file_name)
c.setPageSize([11*inch, 8.5*inch])

page = PdfReader(folder+'2_VisionMissionValues.pdf',decompress=False).pages
p = pagexobj(page[0])
c.setPageSize([11*inch, 8.5*inch]) #Set page size (for landscape)
c.doForm(makerl(c, p))
c.showPage()
c.save()
Run Code Online (Sandbox Code Playgroud)

提前致谢!

reportlab pdf-reader pdfrw

3
推荐指数
1
解决办法
1986
查看次数

如何在itextSharp中检测表启动?

我想将pdf转换为csv文件.pdf文件具有表格格式的数据,第一行作为标题.我已达到可以从单元格中提取文本的级别,比较表格中的文本基线并检测换行符,但我需要比较表格边框以检测表格的开始.我不知道如何检测和比较PDF中的行.谁能帮我?

谢谢!!!

csv pdf itextsharp pdf-parsing pdf-reader

2
推荐指数
2
解决办法
3260
查看次数