slu*_*ijs 4 php unicode explode xpdf pdftotext
XPDFs pdftotext将pdf转换为文本并在命令行级别输出.如果需要,它会在TextOutputDev.cc中指定的页面之间插入PageBreaks:
eopLen = uMap->mapUnicode(0x0c, eop, sizeof(eop));
Run Code Online (Sandbox Code Playgroud)
此Unicode符号是独立编码的,-enc ASCII7不会更改它.我目前愿意使用PHP将PDF文件转换并拆分为几个TXT页面以进行数据库存储.但是,以下功能确实有效,但是一次转换整个PDF所需的时间是原来的两倍.
for($i = 1; $i <= $pages[0]; $i++)
$page[$i] = shell_exec('/usr/bin/pdftotext sample.pdf -f '.$i.' -l '.$i.' -');
Run Code Online (Sandbox Code Playgroud)
我如何explode(0x0c, $wholePDF)使用Unicode字符作为分隔符?目前,页面[$ i]似乎没有从shell_exec()中检索那些奇怪的Unicode PageBreak字符.我尝试了几个用于编码的头文件(尤其是UTF-8),但到目前为止它还没有用完.
0x0c是一个ASCII字符(即在0-127范围内),因此在UTF-8编码中,它表示为自身而不是多字节序列.你应该能够explode(chr(0x0c), $wholePDF).
| 归档时间: |
|
| 查看次数: |
1584 次 |
| 最近记录: |