我正在使用基于Python的HTML解析器并解析Stackoverflow.解析器突然出现在一条线上
HTMLParser.HTMLParseError: bad end tag: "</'+'scr'+'ipt>", at line 649, column 29
Run Code Online (Sandbox Code Playgroud)
该错误指向网站源代码中的以下javascript行:
<script type="text/javascript">
document.write('<s'+'cript lang' + 'uage="jav' + 'ascript" src=" [...] ">');
document.write('</'+'scr'+'ipt>');
</script>
Run Code Online (Sandbox Code Playgroud)
([...]替换长链接,为简单起见,将其删除)
出于好奇,是否有一个特定的原因让我看起来像代码的人工"混淆",即为什么使用document.write方法连接所有切碎的字符串?
我认为这是打击广告拦截器.
... + 'uage="jav' + 'ascript" src="http://ads.stackoverflow.com
Run Code Online (Sandbox Code Playgroud)