SAS:阅读PDF文件

Yoh*_*Yoh 0 pdf binary sas

我正在寻找用SAS读取PDF文件的方法.显然这不是基本功能,互联网上几乎没有.(更不用说google在搜索中使用PDF并不容易,同时也提供了PDF链接到其他东西的链接.)

可以找到的唯一事情是,人们正在寻找从PDF导入数据到数据集的方法.对我来说,这甚至都不是必要的.我希望能够在一个大字符变量中读取PDF文件的内容.如果可能的话,能够读入文件的二进制数据甚至会更好.

这可能与SAS有关吗?(我让它在Access VBA中工作,但在SAS中找不到任何类似的方法.)

(最后,目的是将其转换为base64并将该base64字符串放入XML文档中.)

RWi*_*ill 5

您可能无法将整个文件读入一个字符变量,因为字符变量的最大大小约为33 KB.但是,一次读取一行的简单方法如下所示:

%let pdfFileName = Test.pdf;
%let lineSize = 2000;

data base;
   format text_line $&lineSize..;
   infile "&pdfFileName" lrecl=&lineSize;
   input text_line $;
run;
Run Code Online (Sandbox Code Playgroud)

这要求您提前了解最大记录长度,但是您可以编写其他代码以确定在读取文件之前的最大记录大小.在此示例中,每行文本都被读入一个名为"text_line"的字符变量中.从那里,您可以在INPUT行中使用RETAIN语句或双拖车(@@)来一次处理多行.SAS网站上有大量关于如何从各种类型的输入文件中读取和处理文本的文档.