最近,我看到 scribd 使用户(免费用户)很难浏览他们网站上托管的文档。无法在文档中进行搜索,更不用说能够下载相同的文档了。
使用 javascript,它们在浏览器中按需加载页面,因此浏览器的“另存为”功能没有多大帮助。
令我惊讶的是,我看到即使复制/粘贴文本复制到剪贴板也是胡言乱语!为了检查出了什么问题,我在浏览器中关闭了 javascript,然后再次加载了相同的文档。瞧,我确实看到了胡言乱语。因此,看起来来自 scribd 的 javascript 以某种方式对乱码文本进行解码,然后将其显示在浏览器中。
现在,我的问题是,即使启用了 javascript 并且文本在浏览器中正确呈现,如果我去查看与我选择的文本对应的 DOM 对象,我仍然会看到乱码文本。
所以,现在,我很困惑。文本对用户显示正常,但 DOM 对象仍然包含乱码。所以问题是,网站使用什么样的javascript钩子/代码,以便能够保留DOM对象中的乱码并仍然呈现解码的文本?
有没有办法访问解码的文本?我的目的不是对算法进行逆向工程来解码,而是定位解码文本的存储位置?
示例文档是:
看看当您打开/关闭 Javascript 时会发生什么!
javascript ×1