如何使用pentaho从pdf中提取文本?

mes*_*mpi 1 javascript java pentaho

如何使用 pentaho 读取 PDF 文件中的文本?

有没有只使用内置java库的解决方案?

mes*_*mpi 5

只需添加一个JavaScript Modified Values带有以下代码的步骤:

var reader = new com.lowagie.text.pdf.PdfReader("c:\\temp\\mypdf.pdf") // OR JUST PUT THE COLUMN NAME IN THE FLOW;
var pdfTE = new com.lowagie.text.pdf.parser.PdfTextExtractor(reader);
var noOfPages = reader.getNumberOfPages();
var textPDF = "";
for (var i = 1; i <= noOfPages; i++) {
    textPDF += pdfTE.getTextFromPage(i);
}
Run Code Online (Sandbox Code Playgroud)