使用JavaScript从PDF文件中提取图像

Mik*_* H. 4 javascript pdf

我想编写JavaScript代码从PDF文件中提取所有图像文件,也许将它们作为JPG或其他图像格式.已经存在一些用于读取PDF文件的JavaScript代码,例如PDF查看器pdf-js.

window.addEventListener('change', function webViewerChange(evt) {
  var files = evt.target.files;
  if (!files || files.length === 0)
    return;

  // Read the local file into a Uint8Array.
  var fileReader = new FileReader();
  fileReader.onload = function webViewerChangeFileReaderOnload(evt) {
    var buffer = evt.target.result;
    var uint8Array = new Uint8Array(buffer);
    PDFView.open(uint8Array, 0);
  };

  var file = files[0];
  fileReader.readAsArrayBuffer(file);
  PDFView.setTitleUsingUrl(file.name);
  ........
Run Code Online (Sandbox Code Playgroud)

我可以使用此代码来帮助读取和提取图像文件吗?

Jas*_*ken 10

pdf.js例如,如果您打开一个页面

PDFJS.getDocument({url: <pdf file>}).then(function (doc) {
    doc.getPage(1).then(function (page) {
        window.page = page;
    })
})
Run Code Online (Sandbox Code Playgroud)

然后,您可以使用getOperatorList搜索paintJpegXObject对象并获取资源.

window.objs = []
page.getOperatorList().then(function (ops) {
    for (var i=0; i < ops.fnArray.length; i++) {
        if (ops.fnArray[i] == PDFJS.OPS.paintJpegXObject) {
            window.objs.push(ops.argsArray[i][0])
        }
    }
})
Run Code Online (Sandbox Code Playgroud)

现在args将有一个您需要获取的页面中的资源列表.

console.log(window.args.map(function (a) { page.objs.get(a) }))
Run Code Online (Sandbox Code Playgroud)

应该<img />使用data-uri src=属性向控制台打印一堆对象.这些可以直接插入到页面中,或者您可以执行更多脚本来获取原始数据.

它仅适用于嵌入式JPEG对象,但它是一个开始!

  • 如果在加载图像之前调用“page.objs.get()”,则会出现错误。为了安全起见,请将回调作为第二个参数传递给“get()”,而不是依赖返回值。工作示例:https://codepen.io/Sphinxxxx/pen/MxwGQZ (2认同)