pdf2json 给了我一个空白的输出 txt 文件?

The*_*ter 5 javascript pdf file node.js

我正在他们的 github 上关注他们的“代码示例”指南。https://github.com/modesty/pdf2json#code-example

在“解析 PDF 然后编写 .txt 文件(仅包含 PDF 的文本内容)”的示例中,我将确切的实现复制并粘贴到我的本地 JavaScript 文件中并调用它,但输出文本文件完全空白的。

'use strict';

let fs = require('fs');
let PDFParser = require("pdf2json");

let pdfParser = new PDFParser();

pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError) );
pdfParser.on("pdfParser_dataReady", pdfData => {
    fs.writeFile("./node_modules/pdf2json/test/F1040EZ.content.txt", pdfParser.getRawTextContent());
});

pdfParser.loadPDF("./node_modules/pdf2json/test/pdf/fd/form/F1040EZ.pdf");
Run Code Online (Sandbox Code Playgroud)

这是我做错了什么吗?或者这对他们不起作用?在没有安装额外二进制文件的情况下,还有没有其他替代品可以替代 Nodejs 的 pdf 到文本转换器?

小智 7

头版文档有点错误!为了使这项工作简单地设置为 PDFParser 参数 null 和 1

这个有效:

var fs = require("fs");

// https://github.com/modesty/pdf2json
var PDFParser = require("./node_modules/pdf2json/PDFParser");
var pdfParser = new PDFParser(this,1);

pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError));
pdfParser.on("pdfParser_dataReady", pdfData => {
    console.log(pdfParser)
    fs.writeFile("./content.txt", pdfParser.getRawTextContent());
});
Run Code Online (Sandbox Code Playgroud)

HTH-XDVarpunen

链接到 pdf2json 中的问题:https : //github.com/modesty/pdf2json/issues/76