解析Microsoft Office和PDF文档的最佳方法是什么？

Question

我正在使用VB9(VS2008)和Lucene.NET开发桌面搜索引擎.Lucene.NET中的Indexer仅接受原始文本数据,因此无法直接从Microsoft Office(DOC,DOCX,PPT,PPTX)和PDF文档中提取原始文本.从这些文件中提取原始文本数据的最佳方法是什么？

Answer 1

您可以像Windows桌面搜索一样使用实现IFilter接口的组件.