我正在尝试使用wget检索工作网页,这对于大多数网站使用以下命令都很顺利:
wget -p -k http://www.example.com
Run Code Online (Sandbox Code Playgroud)
在这些情况下,我将最终得到index.html和所需的CSS/JS等.
但是,在某些情况下,url将有一个查询字符串,在这种情况下,我会获得一个附加了查询字符串的index.html.
例
www.onlinetechvision.com/?p=566
Run Code Online (Sandbox Code Playgroud)
结合上面的wget命令将导致:
index.html?page=566
Run Code Online (Sandbox Code Playgroud)
我尝试过使用--restrict-file-names = windows选项,但这只能让我这么做
index.html@page=566
Run Code Online (Sandbox Code Playgroud)
任何人都可以解释为什么需要这个以及如何最终得到一个常规的index.html文件?
更新:我采取不同的方法.我发现我可以通过解析输出来获取wget保存的第一个文件名.因此,保存到:之后出现的名称是我需要的名称.
然而,这是由这个奇怪的角色包裹 - 而不仅仅是删除硬编码 - 这是从哪里来的?
我正在使用生成PDF wkhtmltopdf,这很棒。但是,有时该工具返回退出代码,但是在许多情况下,PDF似乎仍然可以正确生成。
我怎么真正知道wkhtmltopdf做不到这项工作?
例子:
http://www.egresadoutec.edu.sv/boletin_pdf_create.php?idbXwt=101给出了404,但实际上整个页面都是正确创建的(尽管12Mb)。 http://www.anarchia.com/link_in_frame.php?link=7243给出404,实际上什么也没有生成,但是文件大小不是0