如何使用 urllib 跟踪重定向？

Question

如何使用 urllib 跟踪重定向？

R3D*_*34K 1 python redirect urllib urllib2 python-3.x

我正在 Python 3 中创建一个脚本，该脚本访问如下页面：

example.com/daora/zz.asp?x=qqrzzt

使用 urllib.request.urlopen("example.com/daora/zz.asp?x=qqrzzt")，但此代码只给我相同的页面(example.com/daora/zz.asp?x=qqrzzt) 和在浏览器上我得到一个重定向到这样的页面：

example.com/egg.aspx

我该怎么做才能取回

example.com/egg.aspx

而不是

example.com/daora/zz.asp?x=qqrzzt

我认为这是相关代码，这是来自“example.com/daora/zz.asp?x=qqrzzt”的代码：

<head>

<script language="JavaScript">

<!--
    function Submit()

    {
        document.formzz.submit();
    }
-->
</script>

</head>

<body bgcolor="#FFFFFF" leftmargin="0" topmargin="0" marginwidth="0" marginheight="0" onLoad="javascript:Submit();">

<form name="formZZ" method="post" action="http://example.com/egg.aspx">

<input type="hidden" name="token" value="UFASGFJKASGDJFGAJS">

</form>

Run Code Online (Sandbox Code Playgroud)

Answer 1

aba*_*ert 5

urllib.request自动遵循重定向；你不需要做任何事情。

\n\n

这里的问题是没有可遵循的重定向。该网页在加载后立即使用 JavaScript 来伪造表单提交。urllib只是获取页面；它不实现浏览器 DOM 并运行 Javascript 代码。

\n\n

根据您需要脚本的通用程度，最简单的解决方案可能是一些hacky。例如，如果您只是尝试抓取 500 个具有相似结构但细节不同的页面，只需找到action第一个页面form并导航到该页面即可。

\n\n

另外，如果获取页面和处理它们是两个不同的步骤，您可能需要使用超级简单的 Javascript/Greasemonkey 编写一个获取器（在浏览器中运行，因此它已经有了一个有效的 DOM 实现等）并且Python 中的一个单独的精美处理脚本（仅在最终获取/生成的 HTML 页面上运行）。

\n\n

如果您需要完全通用，最简单的解决方案可能是使用selenium浏览器自动化框架。（或者，也许可以使用 PyWin32 或 PyObjC 来直接自动化 IE 或 Webkit。）

\n\n

如果你想要最好的解决方案，并且有无限的资源\xe2\x80\xa6\xc2\xa0编写你自己的DOM实现并连接你最喜欢的Javascript解释器（可能是spidermonkey或v8）。这大约只相当于编写一个新浏览器的 2/3 工作量。（您也许能够找到能够完成 80% 任务的部分。例如，如果您愿意使用 Jython 而不是 CPython 作为您的 Python 解释器，HtmlUnit那就非常灵活了。）

\n

归档时间：	12 年，8 月前
查看次数：	8951 次
最近记录：	6 年，3 月前