嘿,现在已经有一段时间了,我正在为命令行寻找一个pdf查看器.
因为我喜欢在Linux上没有X工作,并且经常在远程机器上工作,所以我想有一个工具来阅读pdfs.有很多非常好的图形程序(evince,okular,acroread,...)来完成这项工作,所以我认为应该至少有一个像样的文本模式工具.但我甚至不知道一个糟糕的人!
目前,我要么开始只读取pdf,要么使用pdftohtml + lynx.然而,后者不会产生非常好的输出,并且大多数文档都是不可读的,特别是如果它们包含数学公式.
谷歌有很多人说要么不可能,要么建议使用pdftohtml版本.
我意识到,这不是一个编程问题,但我正在考虑启动一个项目来实现这样的程序,除非已经有一个好的程序.
谢谢你的任何建议.
我有一个for循环数组,所以我使用Promise.all来完成它们然后调用它们.
let promises = [];
promises.push(promise1);
promises.push(promise2);
promises.push(promise3);
Promise.all(promises).then((responses) => {
for (let i = 0; i < promises.length; i++) {
if (promise.property === something) {
//do something
} else {
let file = fs.createWriteStream('./hello.pdf');
let stream = responses[i].pipe(file);
/*
I WANT THE PIPING AND THE FOLLOWING CODE
TO RUN BEFORE NEXT ITERATION OF FOR LOOP
*/
stream.on('finish', () => {
//extract the text out of the pdf
extract(filePath, {splitPages: false}, (err, text) => {
if (err) {
console.log(err);
} …Run Code Online (Sandbox Code Playgroud) 我在一个文件夹中有近千篇pdf期刊文章.我需要在整个文件夹中对所有文章的摘要进行文本处理.现在我正在做以下事情:
dest <- "~/A1.pdf"
# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)
# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)
Run Code Online (Sandbox Code Playgroud)
通过这个,我将一个pdf文件转换为一个.txt文件,然后将该摘要复制到另一个.txt文件中并手动编译.这项工作很麻烦.
如何从文件夹中读取所有单篇文章并将其转换为仅包含每篇文章摘要的.txt文件.可以通过限制每篇文章中的摘要和引言之间的内容来完成; 但我无法这样做.任何帮助表示赞赏.
我想从这里提取所有行,同时忽略列标题以及所有页面标题,即Supported Devices.
pdftotext -layout DAC06E7D1302B790429AF6E84696FCFAB20B.pdf - \
| sed '$d' \
| sed -r 's/ +/,/g; s/ //g' \
> output.csv
Run Code Online (Sandbox Code Playgroud)
生成的文件应采用CSV电子表格格式(逗号分隔值字段).
换句话说,我想改进上面的命令,以便输出根本不会制动.有任何想法吗?
我在Python 3.6中安装pdftotext时遇到错误.我还尝试通过下载zip文件手动安装软件包,但仍然遇到同样的错误.
如何正确安装pdftotext?
以下是我安装时收到的错误消息.之前有几个警告,但我无法在这里发布整个日志.
pdftotext/pdftotext.cpp(4): fatal error C1083: Cannot open include file: 'poppler/cpp/poppler-document.h': No such file or directory
error: command 'C:\\Program Files (x86)\\Microsoft Visual Studio 14.0\\VC\\BIN\\x86_amd64\\cl.exe' failed with exit status 2
Run Code Online (Sandbox Code Playgroud) 我正在使用pdftotext开源工具将PDF转换为文本文件.如何以UTF-8格式保存文本文件,以便保留文本文件中的所有重音字符.我使用下面的命令转换哪些内容提取到文本文件但不能看到任何重音字符.
pdftotext -enc UTF-8 book1.pdf book1.txt
请帮我解决这个问题.
提前致谢,
我必须将PDF页面中的文本从缩进中提取到CSV文件中.
PDF教科书的索引页面:

我应该将文本拆分为类和子类型层次结构以及页码.例如,在图像中, Application server是类,Apache Tomcat是页码275中的子类
这是CSV的预期输出:

我使用Tika解析器来解析PDF,但是在解析的内容中没有正确维护缩进(不是唯一的),以便将文本拆分为类和子类.
这是解析文本的样子:

任何人都可以建议我这个要求的正确方法吗?
我试图使用pdfMiner解析pdf文件文本,但提取的文本被合并.我正在使用以下链接中的pdf文件.
我对任何类型的输出(文件/字符串)都很好.下面是代码,它将提取的文本作为字符串返回给我,但由于某种原因,列被合并.
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
import StringIO
def convert_pdf(filename):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec)
fp = file(filename, 'rb')
process_pdf(rsrcmgr, device, fp)
fp.close()
device.close()
str = retstr.getvalue()
retstr.close()
return str
Run Code Online (Sandbox Code Playgroud)
我也试过PyPdf2,但面临同样的问题.以下是PyPDF2的示例代码
from PyPDF2.pdf import PdfFileReader
import StringIO
import time
def getDataUsingPyPdf2(filename):
pdf = PdfFileReader(open(filename, "rb"))
content = ""
for i in range(0, pdf.getNumPages()):
print str(i)
extractedText = pdf.getPage(i).extractText() …Run Code Online (Sandbox Code Playgroud) 有没有一致的方法从PDF文件中提取表格?有工具吗?
到目前为止我做了什么:
pdftotext工具.它有一个转换为HTML布局的选项.有什么问题:
<table>标签,但一切都在<p>标签下.PDF文档中是否有任何标记表示表格结构?像<table>,<tr>并<td>在HTML?
如果"是",任何对此的指示都会有所帮助.如果"不",关于这个事实的明确信息也是有帮助的.
使用pdfminer(pdf2txt.py)处理PDF 文件(2.pdf)时收到以下错误:
pdf2txt.py 2.pdf
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 115, in <module>
if __name__ == '__main__': sys.exit(main(sys.argv))
File "/usr/local/bin/pdf2txt.py", line 109, in main
interpreter.process_page(page)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 832, in process_page
self.render_contents(page.resources, page.contents, ctm=ctm)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 843, in render_contents
self.init_resources(resources)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 347, in init_resources
self.fontmap[fontid] = self.rsrcmgr.get_font(objid, spec)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 195, in get_font
font = self.get_font(None, subspec)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdfinterp.py", line 186, in get_font
font = PDFCIDFont(self, spec)
File "/usr/local/lib/python2.7/dist-packages/pdfminer/pdffont.py", line 654, in __init__ …Run Code Online (Sandbox Code Playgroud) pdftotext ×10
pdf ×4
python ×4
pdfminer ×2
asynchronous ×1
command-line ×1
grep ×1
install ×1
linux ×1
natural-language-processing ×1
ncurses ×1
ner ×1
node.js ×1
pdf-parsing ×1
pdf-to-html ×1
pipe ×1
promise ×1
pypdf ×1
r ×1
text-mining ×1
tm ×1
utf-8 ×1