我正在寻找一种方法来读取Java应用程序中的Microsoft Works(.wps)和One Note(.one)文件.实际上,我所关心的只是从这些文件中提取可读文本,以便我可以为它们编制索引.
我已成功使用Apache POI和Tika库从大多数其他Micrososft格式中提取文本,但这两个仍然难以捉摸.
谢谢,弗兰克
据我所知,.one(One Note)文件格式是专有的,但有一个 COM API: http://msdn.microsoft.com/en-us/library/ms788684 (office.12).aspx #Office2007OneNoteWhatsNew_OneNote2007COMAPI您也许可以编写一些东西来将数据转换为另一种语言并调用它?
一些谷歌搜索显示可以转换 wps 文件的程序,但我没有看到任何 java api 或任何文档。这也许是可行的。不确定您正在处理多少个文件,但您可能需要使用另一个应用程序来转换文件,或者您的用户是否先运行另一个应用程序来转换它?