DV.*_*DV. 13 php python perl parsing office-2007
我有一个Web项目,我必须从用户提供的文档中导入文本和图像,其中一种可能的格式是Microsoft Office 2007.还需要以这种格式生成文档.
服务器运行CentOS 5.2并安装了PHP/Perl/Python.如果必须的话,我可以执行本地二进制文件和shell脚本.我们使用Apache 2.2但是一旦它上线就会切换到Nginx.
我有什么选择?有人有这方面的经验吗?
180*_*ION 17
Office 2007文件格式是开放的并且有详细记录.粗略地说,以"x"结尾的所有新文件格式都是zip压缩的XML文档.例如:
打开Word 2007 XML文件创建用于存储文件及其部件的临时文件夹.
将包含文本,图片和其他元素的Word 2007文档另存为.docx文件.
在文件名末尾添加.zip扩展名.
双击该文件.它将在ZIP应用程序中打开.您可以看到组成该文件的部分.
将部件提取到先前创建的文件夹.
其他文件格式大致相似.我还不知道有任何开源库可以与它们进行交互 - 但根据您的具体要求,读取和编写简单文档看起来并不太难.当然它应该比旧格式容易得多.
如果您需要阅读较旧的格式,OpenOffice有一个API,可以读取和写入Office 2003和较旧的文档,或多或少成功.
python docx模块可以从纯Python生成格式化的Microsoft Office docx文件.开箱即用,它可以执行标题,段落,表格和项目符号,但是makeelement()模块可以扩展为执行像图像这样的任意元素.
from docx import *
document = newdocument()
# This location is where most document content lives
docbody = document.xpath('/w:document/w:body',namespaces=wordnamespaces)[0]
# Append two headings
docbody.append(heading('Heading',1) )
docbody.append(heading('Subheading',2))
docbody.append(paragraph('Some text')
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
17074 次 |
| 最近记录: |