PDFJS 和 PDF 编码

Question

PDFJS 和 PDF 编码

我们正在实施 PDFJS 以在网站上呈现 pdf 文件。

当尝试将 PDFdocument/Viewer 启动为 arrayBuffer 时，我们会遇到各种错误，并且文件未呈现。当从 url （DEFAULT_URL 变量）在查看器中打开同一文件时，该文件呈现良好。

然而，有些文件确实呈现为流。在记事本中比较这些文件表明它们具有不同的编码/字符。

这段代码用于在查看器中打开文件：

function rawStringToBuffer( str ) {
    var idx, len = str.length, arr = new Array( len );
    for ( idx = 0 ; idx < len ; ++idx ) {
        arr[ idx ] = str.charCodeAt(idx) & 0xFF;
    }
    return new Uint8Array( arr ).buffer;
}

function readSingleFile(e) {
  var file = e.target.files[0];
  if (!file) {
    return;
  }
  var reader = new FileReader();
  reader.onload = function(e) {
    var contents = e.target.result;

    var uint8array = rawStringToBuffer(contents);

    pdfjsframe.contentWindow.PDFViewerApplication.open(uint8array,0);

    };
    reader.readAsText(file);
}

Run Code Online (Sandbox Code Playgroud)

test.pdf helloworld pdf 不是用上面的代码渲染的。

test2.pdf helloworld pdf，它是用上面的代码渲染的。

该行为不依赖于浏览器。版本号为 b15f335。

查看器的代码或默认配置是否存在某些问题，导致查看器无法呈现 test.pdf？

Answer 1

rha*_*oto 5

我认为您的字符串转换例程没有rawStringToBuffer()达到您想要的效果。您正在以文本形式读取文件，这会将 UTF-8 转换为 UTF-16。但rawStringToBuffer()只是取出每个UTF-16字符的低位字节并丢弃高位字节，这不是逆变换。这适用于 7 位 ASCII 数据，但不适用于其他字符。将字符串转换为 UTF-8 的最佳方法是使用TextEncoder API（并非所有浏览器都支持，但可以使用 polyfill）。

但是，无需将数据从 UTF-8 转换回来。只需使用FileReader.readAsArrayBuffer()而不是readAsText()生成您的ArrayBuffer。

这是一个（未经测试的）替换函数：

function readSingleFile(e) {
  var file = e.target.files[0];
  if (!file) {
    return;
  }
  var reader = new FileReader();
  reader.onload = function(e) {
    var contents = e.target.result;

    pdfjsframe.contentWindow.PDFViewerApplication.open(contents, 0);
  };
  reader.readAsArrayBuffer(file);
}

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，5 月前
查看次数：	4717 次
最近记录：	9 年，5 月前