我能找到的所有文档似乎都暗示我只能提取整个文件的内容.但我需要单独提取页面.我需要为此编写自己的解析器吗?有一些我遗漏的明显方法吗?
text apache-tika
apache-tika ×1
text ×1