使用Sphinx索引Word文档和PDF

Jar*_*own 10 pdf ms-word

我有一个网站,用户上传.doc和.pdf格式的文件.我正在使用Sphinx对我的SQL数据库(MySQL)进行全文搜索.使用Sphinx索引这些文件格式的最佳方法是什么?

mli*_*ner 9

我用它的方法是pdf2text和antiword.我使用这两个来将pdfs和word文档的内容转储到数据库中.从那里,很容易爬上Sphinx.


pat*_*pat 6

不幸的是,Sphinx无法直接索引这些文件类型.您需要将文本内容导入数据库,或者导入Sphinx可以理解的XML格式.