我正在寻找一种将充满 HTML 文件的文件夹转换为纯文本的方法。我想要的是文本文件尽可能多,就像我在网络浏览器中选择所有文本,复制它,然后将文本粘贴到纯文本文件中一样。
不,真的,我想要无格式的纯文本。我找到的所有解决方案都产生 Markdown 或类似的东西,或者试图保留布局,或者使用星号和下划线来指示文本格式,或者保留输出文件中脚本的内容,或者一些聪明的该死的东西.
我想要的只是作者写的文字,按照作者写的顺序。我什至不在乎处理是否将列表中的所有列表项转换为单个段落,或者甚至将整个文档折叠为单个段落。除了文档中包含的实际语言之外,任何这些都比给我任何东西要好得多。
我想要一个终端应用程序或 Python 脚本,但我会接受我能得到的任何东西。