解析Microsoft Office和PDF文档的最佳方法是什么?

use*_*175 7 vb.net pdf parsing lucene.net ms-office

我正在使用VB9(VS2008)和Lucene.NET开发桌面搜索引擎.Lucene.NET中的Indexer仅接受原始文本数据,因此无法直接从Microsoft Office(DOC,DOCX,PPT,PPTX)和PDF文档中提取原始文本.从这些文件中提取原始文本数据的最佳方法是什么?

小智 6

您可以像Windows桌面搜索一样使用实现IFilter接口的组件.