我正在尝试通过一个有趣的项目 - 一个Facebook消息分析器来学习Python.我已经从Facebook上下载了我的数据,其中包括一组html文件.其中一个 - messages.htm - 包含我的所有消息.我的目标是获取这个html文件并将其解析出来输出有趣的数据,如最常见的单词,消息的数量等.
问题是我的messages.htm文件是270MB.我可以在vim中检查它,但文件中有一些有趣的模式,我想比较html代码与它在浏览器上实际呈现的方式,这样我就可以将代码与视觉效果进行比较,更好地了解什么是继续 但是当我尝试在Firefox中打开这个文件时,FF会崩溃.我可以在Chrome中打开它,但它只是开始加载所有消息,并且大约10分钟内它甚至没有完全加载单个消息线程,无论滚动条有多小.所以这是不可行的.
甚至可以完全呈现如此大而长的HTML文件吗?