标签: pdf-reader

CFURLRef pdfURL = CFBundleCopyResourceURL(CFBundleGetMainBundle(), CFSTR("paper.pdf"), NULL, NULL);
pdf = CGPDFDocumentCreateWithURL((CFURLRef)pdfURL);
CFRelease(pdfURL);

Run Code Online (Sandbox Code Playgroud)

然后我试图在NSDocument目录中存储pdf文件(来自URL),成功存储.

NSData *pdfData = [[NSData alloc] initWithContentsOfURL:[NSURL URLWithString:@"http://www.msy.com.au/Parts/PARTS.pdf"]];

 NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES); 
 NSString *documentsDirectory = [paths objectAtIndex:0]; 
 NSString *filePath = [documentsDirectory stringByAppendingPathComponent:@"myPDF11.pdf"];
 [pdfData writeToFile:filePath atomically:YES];

Run Code Online (Sandbox Code Playgroud)

然后我尝试读取该pdf文件(来自NSDocument目录),但我不知道,请帮助我.

提前致谢

iphone multithreading pdf-reader ios nsdocumentdirectory

Sam*_*mar

lucky-day

4
推荐指数

2
解决办法

1万
查看次数

如何检查PDF是否受密码保护

我正在尝试使用iText的PdfReader来检查给定的PDF文件是否受密码保护,但是我得到了这个例外:

线程"主线程"中的异常java.lang.NoClassDefFoundError:org/bouncycastle/asn1/ASN1OctetString

但是,当针对非密码保护的文件测试相同的代码时,它运行正常.这是完整的代码:

try {
    PdfReader pdf = new PdfReader("C:\\abc.pdf");
} catch (IOException e) {
    e.printStackTrace();
}

Run Code Online (Sandbox Code Playgroud)

java passwords file-permissions itext pdf-reader

tus*_*awa

2013 04-09

4
推荐指数

4
解决办法

1万
查看次数

使用python pdfminer提取整个pdf数据

我正在使用pdfminer使用python从pdf文件中提取数据.我想提取pdf中存在的所有数据,无论它是图像,文本还是其他任何内容.我们可以在一行(或两个,如果需要,没有太多工作)这样做.任何帮助表示赞赏.提前致谢

python pdf-reader

sun*_*ddy

lucky-day

4
推荐指数

1
解决办法

9803
查看次数

如何读取亚洲语言（中文、日语、泰语等）的PDF文件并将其存储在python中的字符串中

我正在使用 PyPDF2 在 python 中读取 PDF 文件。虽然它适用于英语和欧洲语言（带有英语字母表），但该图书馆无法阅读日语和中文等亚洲语言。我尝试过encode('utf-8')，decode('utf-8')但似乎没有任何效果。它只是在提取文本时打印一个空白字符串。

我尝试过其他库，如 texttract 和 PDFMiner，但尚未成功。

当我从 PDF 复制文本并将其粘贴到笔记本上时，字符会变成某种随机格式文本（可能采用不同的编码）。

def convert_pdf_to_text(filename):
    text = ''
    pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
    if pdf.isEncrypted:
        pdf.decrypt('')
    for page in pdf.pages:
        text = text + page.extractText()
    return text

Run Code Online (Sandbox Code Playgroud)

有人能指出我正确的方向吗？

python unicode nlp text-extraction pdf-reader

Nik*_*wal

lucky-day

4
推荐指数

1
解决办法

8383
查看次数

我们如何使用带空格的itextsharp从pdf中提取文本？

我正在使用以下方法逐行提取pdf文本.但问题是,它不是在文字和数字之间阅读空格.什么可以解决这个问题？

我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自pdf的文本行,因为它在pdf中包含空格.

public void readtextlinebyline(string filename)   {


        List<string> strlist = new List<string>();
        PdfReader reader = new PdfReader(filename);
        string text = string.Empty;
        for (int page = 1; page <= 1; page++)
        {

            text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

        }
        reader.Close();
        string[] words = text.Split('\n');
        foreach (string word in words)
        {
            strlist.Add(word);
        }

        foreach (string st in strlist)
        {
            Response.Write(st +"<br/>");
        }

   }

Run Code Online (Sandbox Code Playgroud)

我已经通过将策略更改为SimpleTextExtractionStrategy来尝试此方法,但它也不适用于我.

c# pdf extract extraction pdf-reader

sha*_*dra

2013 05-06

3
推荐指数

2
解决办法

1万
查看次数

我正在尝试使用PDFrw从某个PDF获取数据(让我们说这里的页面右上角的那个).我使用PDFrw来做到这一点.我查看了他们提供的文档(我找不到太多)并查看了他们在git上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情.我如何使用PDFrw制作一个简单的程序进入PDF(或者如果有更好的那个,则进入另一个程序)并提取某段文本.我正在考虑将其转换为HTML ...这会更容易吗？看看我上面提供的PDF作为一个例子,我想得到(让我们说)电压,这在PDF中是600瓦...我怎样才能以最简单的方式做到这一点？我找不到任何关于此的任何其他堆栈溢出问题,所以希望有人可以帮助以前使用它!

谢谢!

python pdf pdf-reader pdfrw

Nic*_*ick

2015 08-10

3
推荐指数

1
解决办法

3055
查看次数

ReportLab 和 pdfrw：导入扫描的 PDF

使用下面的代码，我试图将 pdf 页面导入现有的画布对象并保存为 PDF。这通常工作得很好，但我注意到当我尝试使用从扫描文档生成的 PDF 时，它会导致一个空白页面。有接班人吗？

from reportlab.pdfgen import canvas
from pdfrw import PdfReader
from pdfrw.buildxobj import pagexobj
from pdfrw.toreportlab import makerl

c = canvas.Canvas(Out_Folder+pdf_file_name)
c.setPageSize([11*inch, 8.5*inch])

page = PdfReader(folder+'2_VisionMissionValues.pdf',decompress=False).pages
p = pagexobj(page[0])
c.setPageSize([11*inch, 8.5*inch]) #Set page size (for landscape)
c.doForm(makerl(c, p))
c.showPage()
c.save()

Run Code Online (Sandbox Code Playgroud)

提前致谢！

reportlab pdf-reader pdfrw

Dan*_*rty

lucky-day

3
推荐指数

1
解决办法

1986
查看次数