如何将网页(从Intranet wiki)转换为Office文档?

Mar*_*eux 5 mediawiki ms-word data-conversion ms-office

我在公司的Intranet上有一组Wiki页面(MediaWiki样式),我想将其转换为Microsoft Office Word文档(或者我可以在其中导入的内容).我正在寻找具有以下特点的东西:

要求

  • 尽可能多地保留格式
  • 不需要在托管Wiki的服务器上更改任何内容(不能添加插件,也不能从我这边修改配置文件)
  • 该解决方案可以通过编程方式(因为我也是开发人员),具有Python/C#/ C++等风格

排除

  • 看起来不像"Acrobat PDF Pro到Microsof Office Word的Wiki"(因为我们没有Acrobat PDF Pro).实际上,即使是非Pro版本(允许"另存为Microsoft Word在线"选项)在我的公司(非常旧版本的Adobe套件)中也不可用.但是,我仍然可以将页面导出为PDF格式,但是从我们的Wiki中,它看起来并不好(因为某些元素太大,对于A4格式,并且额外的部分从生成的pdf中删除.我希望无论如何都要包含它们,并最终能够在Word中使用"坏"格式
  • 由于它是内联网维基,因此在线解决方案不在范围内
  • 意味着我可以复制Wiki的db并在其他地方(例如在家中)执行操作的解决方案也超出了范围

选项

  • 解决方案可以是Windows或Linux(CentOS)
  • 如果它可以批量执行,则更好,但不是必需的

您是否有任何能够满足我需求的解决方案?

Dir*_*mar 6

一个非常简单的解决方案是在Word的" 打开文档"对话框中打开 Wiki的URL ,例如将URL http://en.wikipedia.org/w/index.php?title=Microsoft_Word&printable=yes粘贴到" 文件名"文本框中.这不需要任何编程,仍然会给出令人满意的结果.

如果需要批处理解决方案,可以在VBA中编写一个简单的脚本,为您创建并保存文档:

Sub OpenFromWiki()

    Documents.Open FileName:= _
        "http://en.wikipedia.org/w/index.php?title=Microsoft_Word&printable=yes", _
         ConfirmConversions:=False, ReadOnly:=True, AddToRecentFiles:=False, _
        PasswordDocument:="", PasswordTemplate:="", Revert:=False, _
        WritePasswordDocument:=""

End Sub
Run Code Online (Sandbox Code Playgroud)