Jar*_*own 10 pdf ms-word
我有一个网站,用户上传.doc和.pdf格式的文件.我正在使用Sphinx对我的SQL数据库(MySQL)进行全文搜索.使用Sphinx索引这些文件格式的最佳方法是什么?
mli*_*ner 9
我用它的方法是pdf2text和antiword.我使用这两个来将pdfs和word文档的内容转储到数据库中.从那里,很容易爬上Sphinx.
pat*_*pat 6
不幸的是,Sphinx无法直接索引这些文件类型.您需要将文本内容导入数据库,或者导入Sphinx可以理解的XML格式.
归档时间:
16 年,7 月 前
查看次数:
7295 次
最近记录:
12 年,4 月 前