使用Google Translate API翻译PDF文件

Sai*_*kat 9 pdf file translate

我想在我的项目中使用Google Translate.我完成了与谷歌的所有手续.我也有API密钥.使用此键,我可以轻松地使用JavaScript翻译任何单词.但是,如何在Google翻译网站中翻译PDF文件?我发现了一件事:

http://translate.google.com/translate?hl=fr&sl=auto&tl=en&u=http://www.example.com/PDF.pdf

但在这里我无法使用我的密钥,因此翻译需要花费很多时间.所以我想使用我的密钥并翻译PDF文件.请帮帮我.我的方法是这样的:

1. One html page I have.
2. One browse button for pdf
3. Upload the file
4. Transalte the pdf with Google API and show in the html page.
Run Code Online (Sandbox Code Playgroud)

我搜索了这个pdf翻译,但没有找到任何东西.请帮帮我.

Cyr*_*bil 5

TL:DR:使用无头浏览器从Google的PDF翻译服务中呈现PDF.

PDF是一种复杂的格式,可以包含许多文本组件.为了翻译它,我将描述从简单到更高级的解决方案.

翻译原始文本

如果您只需要没有视觉输出的翻译,则可以提取文本并将其提供给Google翻译.

由于您没有提供有关您的项目(语言,环境......)的信息,因此我将重定向到此线程,以了解如何提取文本

翻译所有文字

如果你需要从PDF中的所有内容中获取文本,那就非常困难.为避免头痛(部分),您可以将PDF转换为图像(使用imagemagick工具或类似工具),然后您有三个选项:

  • OCR从图像中的文本,然后将其提供给谷歌,再次你丢失原始形式.
  • OCR文本,但保存位置(一些库可以这样做,再次,因为您没有指定您的项目信息,请参阅这些链接:#1,#2,#3,#4).

    然后用google api翻译它,并将结果写入图像.为获得出色的效果,您需要考虑文本字体,颜色和背景颜色.相当困难,但可行.

  • 使用谷歌翻译图像服务翻译图像.遗憾的是,此功能在公共API中不可用,因此除非进行一些逆向工程,否则这是不可能的.

使用Google的PDF翻译服务进行翻译

您使用翻译网站提供的解决方案可以非常轻松地自动化.这很长的原因是因为它是一个繁重的过程,你可能不会击败谷歌.

使用无头浏览器,您可以使用pdf获取翻译页面,然后观察翻译的内容是否位于iframe中,获取iframe并最终打印为PDF.

这是一个使用SlimerJS的简短示例(应与Phantomjs兼容)

var page = require("webpage").create();

// here you may want to setup page size and options    

// get the page
page.open('https://translate.google.fr/translate?hl=fr&sl=en&u=http://example.com/pdf-sample.pdf', function(status) {
    if (status !== 'success') {
        console.log('Unable to access network');
    } else {
        // find the iframe with querySelector
        var iframe_src = page.evaluate(function() {
            return document.querySelector('#contentframe').querySelector('iframe').src;
        });

        console.log('Found iframe: ' + iframe_src);

        // render the iframe
        page.open(iframe_src, function(status) {
            // wait a bit for javascript to translate
            // this can be optimized to be triggered in javascript when translation is done
            setTimeout(function() {
                // print the page into PDF
                page.render('/tmp/test.pdf', { format: 'pdf' });

                phantom.exit(0);
            }, 2000);

        });
    }
});
Run Code Online (Sandbox Code Playgroud)

给这个文件:http://www.cbu.edu.zm/downloads/pdf-sample.pdf
它产生这个结果(翻译成法语):(我发布了截图,因为我无法嵌入PDF;)) Pdf结果