标签: document-conversion

将pdf,doc,ppt转换为html5

我用Google搜索(没有任何运气)open source software that can convert doc, ppt, and pdf to HTML5.(正是Scribd所做的)Scribd的转换类型是否有开源等价物？

如果有人知道付费服务,那也行.Scribd有一个API,但它适用于flash查看器.此外,我想托管我自己的内容,因为我需要进一步控制转换后的HTML文档.

html5 document-conversion scribd

Kev*_*vMo

2016 01-11

39
推荐指数

3
解决办法

4万
查看次数

将文档转换为pdf格式的有效方法

我一直在努力找到将文档转换为doc,docx,ppt,pptx到pdf的有效方法.到目前为止,我已经试过docsplit和oowriter,但都采取> 10秒完成任务的pptx文件有大小1.7MB.任何人都可以建议我改进方法的更好方法或建议吗？

我尝试过的:

from subprocess import Popen, PIPE
import time

def convert(src, dst):
    d = {'src': src, 'dst': dst}
    commands = [
        '/usr/bin/docsplit pdf --output %(dst)s %(src)s' % d,
        'oowriter --headless -convert-to pdf:writer_pdf_Export %(dst)s %(src)s' % d,
    ]

    for i in range(len(commands)):
        command = commands[i]
        st = time.time()
        process = Popen(command, stdout=PIPE, stderr=PIPE, shell=True) # I am aware of consequences of using `shell=True` 
        out, err = process.communicate()
        errcode = process.returncode
        if errcode != 0: …

Run Code Online (Sandbox Code Playgroud)

python pdf ubuntu document-conversion docsplit

Aam*_*nan

2014 01-03

20
推荐指数

1
解决办法

1万
查看次数

Libreoffice转换为不工作

我正在尝试将文档从html,txt转换为pdf,odt,反之亦然..但只有odt到pdf似乎工作..没有其他文件格式转换

这是我的命令

libreoffice --headless --convert-to pdf test.html [Not working]
libreoffice --headless --convert-to odt test.html [Not working]
libreoffice --headless --convert-to pdf test.docx [Not working]
libreoffice --headless --convert-to pdf test.odt  [Working]

Run Code Online (Sandbox Code Playgroud)

headless document-conversion libreoffice

cas*_*123

lucky-day

16
推荐指数

4
解决办法

2万
查看次数

将多页PDF转换为多页TIFF的工具

我正在编写一个小应用程序来将多个多页PDF转换为多页TIFF文件.根据这个网站上的其他问题和答案,我已经尝试了ghostscript和ImageMagick,但是当我运行它们时,这两个软件只会隐藏第一页.有没有其他工具可以用来实现这一点,最好是开源的？

pdf tiff imagemagick document-conversion ghostscript

Wil*_*ann

2012 07-15

7
推荐指数

1
解决办法

2万
查看次数

如何预览文件？

我正在开发一个文件共享网站,我需要一种方法来截取上传文档的截图.

该网站将支持多种文件格式,从纯文本到办公文档(doc,xls,ppt,...),视频(mpeg,avi,...),图像(jpg,gif,png,...)PDF ,开放式办公室等

每个文档都需要对其进行"预览",好的部分是客户希望以下格式具有预览:doc,xls,ppt和pdf.其他文件格式是选项,如果我能找到一种方法,他们将有预览.

此外,图像不是问题,因为我只需要在预览中包含缩略图.此外,我将使用FFMPEG将视频转换为FLV,以便我也可以使用它来截取视频的截图.

我正在考虑使用支持Office和Open Office格式的JODconverter,我不知道它是否转换为JPG,但至少它转换为PDF,这是somenthing.该站点正在使用专用Debian服务器运行的Drupal 5下的PHP构建,因此,如果我选择JOD,我将把它用作在同一台机器中的虚拟服务器中运行的web服务.

有没有人知道将文件转换为图像的更好的应用程序或方法？

任何帮助将不胜感激,提前感谢!

哈维尔

document-conversion

Flu*_*ear

lucky-day

6
推荐指数

1
解决办法

1万
查看次数

替代 Tika/PDFBox 用于在 Solr 中解析 PDF（1.4 之后的任何版本）

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否还有其他替代方法可以使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件？使用它时，我的内容之间似乎有随机空格。我通过直接通过 PDFBox（最新版本）运行 PDF 来隔离问题，该问题具有相同的问题。

一些 OCR 商业软件（如 Omnifind）可以很好地处理 PDF，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

solr document-conversion full-text-indexing pdfbox apache-tika

Rav*_*dev

lucky-day

5
推荐指数

1
解决办法

5265
查看次数

将Pandoc从1.19更新到2.4后，R markdown pandoc文档转换失败，错误1

我最近在Windows上安装了pandoc 2.4，并且所有编织都发生错误1的转换。我无法编织html，word和pdf。错误说

output file: template.knitmd
pandoc.exe: template.utf8.md: openBinaryFile: does not exist (No such file or directory)
Error: pandoc document conversion failed with error 1
Execusion halted

Run Code Online (Sandbox Code Playgroud)

即使原始的基本模板rmd文件也会发生这种情况。我使用的是封闭的网络，没有互联网连接，并且没有书面许可。以前，我能够编织位于documents文件夹中的rmd文件，从而在相同位置生成输出。

sessionInfo（）说

R version 3.5.1 (2018-07-02)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: windows >=8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_collate=english_united states.1252 lc_ctype=english_united states.1252 lc_monetary=english_united states.1252
[4] LC_Numeric=C LC_TIME=english_united states.1252

attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] flextable_0.4.5 officer_0.3.2 knitr_1.20 rmarkdown_1.10

loaded via a namespace …

Run Code Online (Sandbox Code Playgroud)

document-conversion pandoc rstudio knitr r-markdown

Mos*_*Kim

2018 11-20

5
推荐指数

1
解决办法

1880
查看次数

A.nnotate.com背后使用了什么技术？

我想知道A.nnotate.com,Scribd,Google Docs等服务如何将pdf,.doc或任何其他文档呈现为HTML以及注释系统如何工作？

pdf html5 annotations document-conversion scribd

thi*_*ter

lucky-day

4
推荐指数

1
解决办法

645
查看次数

<Response [200]> 不是 JSON 可序列化的

按照文档转换 API 示例尝试使用 Flask 将 msword 文档转换为文本，但它不起作用。

这是代码

import os, json, requests

from flask import Flask, jsonify

from watson_developer_cloud import DocumentConversionV1

app = Flask(__name__) #create flask instance

@app.route('/')

def Welcome():

    v = json.loads(os.getenv('VCAP_SERVICES'))
    svcName = 'document_conversion'
    svc = v[svcName][0]['credentials']
    url = svc['url']
    user = svc['username']
    password = svc['password']
    document_conversion = DocumentConversionV1(username=user, password=password,version='2015-12-15')
    # Example of retrieving html or plain text
    with open('./doc.docx', 'rb') as document:
        config = {'conversion_target': DocumentConversionV1.NORMALIZED_TEXT}    
        print(json.dumps(document_conversion.convert_document(document=document, config=config),indent=2))  

if __name__ == "__main__":

    port = os.getenv('VCAP_APP_PORT', '5000')
    app.run(host='0.0.0.0', …

Run Code Online (Sandbox Code Playgroud)

python document-conversion

use*_*732

2016 05-27

2
推荐指数

1
解决办法

1万
查看次数