我一直在努力找到将文档转换为doc,docx,ppt,pptx到pdf的有效方法.到目前为止,我已经试过docsplit和oowriter,但都采取> 10秒完成任务的pptx文件有大小1.7MB.任何人都可以建议我改进方法的更好方法或建议吗?
我尝试过的:
from subprocess import Popen, PIPE
import time
def convert(src, dst):
d = {'src': src, 'dst': dst}
commands = [
'/usr/bin/docsplit pdf --output %(dst)s %(src)s' % d,
'oowriter --headless -convert-to pdf:writer_pdf_Export %(dst)s %(src)s' % d,
]
for i in range(len(commands)):
command = commands[i]
st = time.time()
process = Popen(command, stdout=PIPE, stderr=PIPE, shell=True) # I am aware of consequences of using `shell=True`
out, err = process.communicate()
errcode = process.returncode
if errcode != 0: …Run Code Online (Sandbox Code Playgroud) 我正在尝试将文档从html,txt转换为pdf,odt,反之亦然..但只有odt到pdf似乎工作..没有其他文件格式转换
这是我的命令
libreoffice --headless --convert-to pdf test.html [Not working]
libreoffice --headless --convert-to odt test.html [Not working]
libreoffice --headless --convert-to pdf test.docx [Not working]
libreoffice --headless --convert-to pdf test.odt [Working]
Run Code Online (Sandbox Code Playgroud) 我正在编写一个小应用程序来将多个多页PDF转换为多页TIFF文件.根据这个网站上的其他问题和答案,我已经尝试了ghostscript和ImageMagick,但是当我运行它们时,这两个软件只会隐藏第一页.有没有其他工具可以用来实现这一点,最好是开源的?
我正在开发一个文件共享网站,我需要一种方法来截取上传文档的截图.
该网站将支持多种文件格式,从纯文本到办公文档(doc,xls,ppt,...),视频(mpeg,avi,...),图像(jpg,gif,png,...)PDF ,开放式办公室等
每个文档都需要对其进行"预览",好的部分是客户希望以下格式具有预览:doc,xls,ppt和pdf.其他文件格式是选项,如果我能找到一种方法,他们将有预览.
此外,图像不是问题,因为我只需要在预览中包含缩略图.此外,我将使用FFMPEG将视频转换为FLV,以便我也可以使用它来截取视频的截图.
我正在考虑使用支持Office和Open Office格式的JODconverter,我不知道它是否转换为JPG,但至少它转换为PDF,这是somenthing.该站点正在使用专用Debian服务器运行的Drupal 5下的PHP构建,因此,如果我选择JOD,我将把它用作在同一台机器中的虚拟服务器中运行的web服务.
有没有人知道将文件转换为图像的更好的应用程序或方法?
任何帮助将不胜感激,提前感谢!
哈维尔
似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件?使用它时,我的内容之间似乎有随机空格。我通过直接通过 PDFBox(最新版本)运行 PDF 来隔离问题,该问题具有相同的问题。
一些 OCR 商业软件(如 Omnifind)可以很好地处理 PDF,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
solr document-conversion full-text-indexing pdfbox apache-tika
我最近在Windows上安装了pandoc 2.4,并且所有编织都发生错误1的转换。我无法编织html,word和pdf。错误说
output file: template.knitmd
pandoc.exe: template.utf8.md: openBinaryFile: does not exist (No such file or directory)
Error: pandoc document conversion failed with error 1
Execusion halted
Run Code Online (Sandbox Code Playgroud)
即使原始的基本模板rmd文件也会发生这种情况。我使用的是封闭的网络,没有互联网连接,并且没有书面许可。以前,我能够编织位于documents文件夹中的rmd文件,从而在相同位置生成输出。
sessionInfo()说
R version 3.5.1 (2018-07-02)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: windows >=8 x64 (build 9200)
Matrix products: default
locale:
[1] LC_collate=english_united states.1252 lc_ctype=english_united states.1252 lc_monetary=english_united states.1252
[4] LC_Numeric=C LC_TIME=english_united states.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] flextable_0.4.5 officer_0.3.2 knitr_1.20 rmarkdown_1.10
loaded via a namespace …Run Code Online (Sandbox Code Playgroud) 我想知道A.nnotate.com,Scribd,Google Docs等服务如何将pdf,.doc或任何其他文档呈现为HTML以及注释系统如何工作?
按照文档转换 API 示例尝试使用 Flask 将 msword 文档转换为文本,但它不起作用。
这是代码
import os, json, requests
from flask import Flask, jsonify
from watson_developer_cloud import DocumentConversionV1
app = Flask(__name__) #create flask instance
@app.route('/')
def Welcome():
v = json.loads(os.getenv('VCAP_SERVICES'))
svcName = 'document_conversion'
svc = v[svcName][0]['credentials']
url = svc['url']
user = svc['username']
password = svc['password']
document_conversion = DocumentConversionV1(username=user, password=password,version='2015-12-15')
# Example of retrieving html or plain text
with open('./doc.docx', 'rb') as document:
config = {'conversion_target': DocumentConversionV1.NORMALIZED_TEXT}
print(json.dumps(document_conversion.convert_document(document=document, config=config),indent=2))
if __name__ == "__main__":
port = os.getenv('VCAP_APP_PORT', '5000')
app.run(host='0.0.0.0', …Run Code Online (Sandbox Code Playgroud) 有没有一种简单的方法可以保留格式?
pdf ×3
html5 ×2
python ×2
scribd ×2
annotations ×1
apache-tika ×1
asp.net ×1
docsplit ×1
ghostscript ×1
headless ×1
imagemagick ×1
knitr ×1
libreoffice ×1
ms-word ×1
pandoc ×1
pdfbox ×1
r-markdown ×1
rstudio ×1
solr ×1
tiff ×1
ubuntu ×1