C#Tika的替代品

Jes*_*sse 11 c#

任何知道TiKa的任何C#替代都能从HTML,PDF等中提取文本.?

Ton*_* Qu 5

我已经实现了一个名为 Toxy 的框架。它基于 .NET,比 Tika 更易于使用。请访问http://toxy.codeplex.com


Nei*_*ilD 3

我有类似的需求...我有一个 .Net 项目,我需要从各种文件(.XLS、.DOC、.PDF 等)中提取文本,以便使用 Lucene.Net 进行索引

这篇博文似乎正是我所追求的:围绕 .jar 文件的 .Net 包装器!

我现在正在实施它,但如果它不起作用,那么我会在这里更新我的答案......

编辑:好的,它已经启动,正在运行,并且运行良好(如果有点慢)。IKVM 位存在一些相当令人讨厌的依赖关系,但它是我发现的最佳替代方案。