我有一个包含图像和一些文本的mht文件.当我用notepad ++打开它时,我看到xml,然后看到难以辨认的文字,我认为是图像.有人能告诉我如何使用java程序从mht文件中提取图像和文本?谢谢.
尝试名为ExtractMHT的工具
http://www.legroom.net/software/extractmht
它有点旧,但在 Internet Explorer 中打开它,然后另存为 HTML 也可以完成这项工作
更新:
如果您在 IE 中打开 .mht 文件,然后保存它,并将“保存类型”设置为“网页,完整(.htm; .html)”,那么它也会创建“文件名.htm”文件作为“文件名_文件”目录。该目录中会有很多 .tmp 文件。对于 MS“问题步骤记录器”的输出,其中将包括一堆名称中带有“(1)”的文件(例如可能有一个“ mhtD3B8.tmp ”文件以及一个“ mhtD3B8(1”) ).tmp ' 文件)。“(1)”文件是 .jpg 格式的图像,仅带有 .tmp 扩展名。从该文件夹中搜索名称中包含“(1)”的所有文件,并将它们复制到其他目录。
进入新目录后,打开指向该目录的 cmd 窗口。要一次更改所有扩展名,请输入“ rename *.tmp *.jpg ”(不带引号)并按 Enter。瞧 - 所有图像文件都已提取。
至于访问文本 - 由于该文件现在保存为 .htm 文件,您应该能够在 Notepad++ 中打开该文件并在那里正确解析/读取它。
希望这可以帮助!