我正在使用'pdf-reader'gem来阅读pdf文档的原始内容,以便我可以将它们发布(http-post)到API.要确认API实现可以从原始内容创建有效的pdf文档,我写了一个小小的要点来验证我的代码以阅读pdf内容.
出于某种原因,我总是得到'PDF不包含EOF标记(PDF :: Reader :: MalformedPDFError)'.
谁能指出我哪里出错了?
我是Android应用程序开发的新手.使用iText我已经完成了PDF创建n在该创建的文件上写入现在我想要读取该PDF文件.如何使用iText打开或阅读PDF文件.
例子会很明显..
那么提前..... !!!
这是呈现PDF文件的最佳库.. ???? JPedal/iText/gnujpdf或任何其他..... ?????
目前我在iPhone应用程序中工作,我在资源文件夹(本地pdf文件)中有一个pdf文件,然后我成功读取了pdf文件(paper.pdf),下面我提到了阅读本地pdf文件供您参考.
例:
CFURLRef pdfURL = CFBundleCopyResourceURL(CFBundleGetMainBundle(), CFSTR("paper.pdf"), NULL, NULL);
pdf = CGPDFDocumentCreateWithURL((CFURLRef)pdfURL);
CFRelease(pdfURL);
Run Code Online (Sandbox Code Playgroud)
然后我试图在NSDocument目录中存储pdf文件(来自URL),成功存储.
NSData *pdfData = [[NSData alloc] initWithContentsOfURL:[NSURL URLWithString:@"http://www.msy.com.au/Parts/PARTS.pdf"]];
NSArray *paths = NSSearchPathForDirectoriesInDomains(NSDocumentDirectory, NSUserDomainMask, YES);
NSString *documentsDirectory = [paths objectAtIndex:0];
NSString *filePath = [documentsDirectory stringByAppendingPathComponent:@"myPDF11.pdf"];
[pdfData writeToFile:filePath atomically:YES];
Run Code Online (Sandbox Code Playgroud)
然后我尝试读取该pdf文件(来自NSDocument目录),但我不知道,请帮助我.
提前致谢
我正在尝试使用iText的PdfReader来检查给定的PDF文件是否受密码保护,但是我得到了这个例外:
线程"主线程"中的异常java.lang.NoClassDefFoundError:org/bouncycastle/asn1/ASN1OctetString
但是,当针对非密码保护的文件测试相同的代码时,它运行正常.这是完整的代码:
try {
PdfReader pdf = new PdfReader("C:\\abc.pdf");
} catch (IOException e) {
e.printStackTrace();
}
Run Code Online (Sandbox Code Playgroud) 我正在使用pdfminer使用python从pdf文件中提取数据.我想提取pdf中存在的所有数据,无论它是图像,文本还是其他任何内容.我们可以在一行(或两个,如果需要,没有太多工作)这样做.任何帮助表示赞赏.提前致谢
我正在使用 PyPDF2 在 python 中读取 PDF 文件。虽然它适用于英语和欧洲语言(带有英语字母表),但该图书馆无法阅读日语和中文等亚洲语言。我尝试过encode('utf-8')
,decode('utf-8')
但似乎没有任何效果。它只是在提取文本时打印一个空白字符串。
我尝试过其他库,如 texttract 和 PDFMiner,但尚未成功。
当我从 PDF 复制文本并将其粘贴到笔记本上时,字符会变成某种随机格式文本(可能采用不同的编码)。
def convert_pdf_to_text(filename):
text = ''
pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
if pdf.isEncrypted:
pdf.decrypt('')
for page in pdf.pages:
text = text + page.extractText()
return text
Run Code Online (Sandbox Code Playgroud)
有人能指出我正确的方向吗?
我正在使用以下方法逐行提取pdf文本.但问题是,它不是在文字和数字之间阅读空格.什么可以解决这个问题?
我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自pdf的文本行,因为它在pdf中包含空格.
public void readtextlinebyline(string filename) {
List<string> strlist = new List<string>();
PdfReader reader = new PdfReader(filename);
string text = string.Empty;
for (int page = 1; page <= 1; page++)
{
text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";
}
reader.Close();
string[] words = text.Split('\n');
foreach (string word in words)
{
strlist.Add(word);
}
foreach (string st in strlist)
{
Response.Write(st +"<br/>");
}
}
Run Code Online (Sandbox Code Playgroud)
我已经通过将策略更改为SimpleTextExtractionStrategy来尝试此方法,但它也不适用于我.
我正在尝试使用PDFrw从某个PDF获取数据(让我们说这里的页面右上角的那个).我使用PDFrw来做到这一点.我查看了他们提供的文档(我找不到太多)并查看了他们在git上发布的示例代码,但我似乎无法获得足够的信息来做我想做的事情.我如何使用PDFrw制作一个简单的程序进入PDF(或者如果有更好的那个,则进入另一个程序)并提取某段文本.我正在考虑将其转换为HTML ...这会更容易吗?看看我上面提供的PDF作为一个例子,我想得到(让我们说)电压,这在PDF中是600瓦...我怎样才能以最简单的方式做到这一点?我找不到任何关于此的任何其他堆栈溢出问题,所以希望有人可以帮助以前使用它!
谢谢!
使用下面的代码,我试图将 pdf 页面导入现有的画布对象并保存为 PDF。这通常工作得很好,但我注意到当我尝试使用从扫描文档生成的 PDF 时,它会导致一个空白页面。有接班人吗?
from reportlab.pdfgen import canvas
from pdfrw import PdfReader
from pdfrw.buildxobj import pagexobj
from pdfrw.toreportlab import makerl
c = canvas.Canvas(Out_Folder+pdf_file_name)
c.setPageSize([11*inch, 8.5*inch])
page = PdfReader(folder+'2_VisionMissionValues.pdf',decompress=False).pages
p = pagexobj(page[0])
c.setPageSize([11*inch, 8.5*inch]) #Set page size (for landscape)
c.doForm(makerl(c, p))
c.showPage()
c.save()
Run Code Online (Sandbox Code Playgroud)
提前致谢!
我想将pdf转换为csv文件.pdf文件具有表格格式的数据,第一行作为标题.我已达到可以从单元格中提取文本的级别,比较表格中的文本基线并检测换行符,但我需要比较表格边框以检测表格的开始.我不知道如何检测和比较PDF中的行.谁能帮我?
谢谢!!!