小编use*_*292的帖子

wget将查询字符串附加到结果文件

我正在尝试使用wget检索工作网页,这对于大多数网站使用以下命令都很顺利:

wget -p -k http://www.example.com
Run Code Online (Sandbox Code Playgroud)

在这些情况下,我将最终得到index.html和所需的CSS/JS等.

但是,在某些情况下,url将有一个查询字符串,在这种情况下,我会获得一个附加了查询字符串的index.html.

www.onlinetechvision.com/?p=566
Run Code Online (Sandbox Code Playgroud)

结合上面的wget命令将导致:

index.html?page=566
Run Code Online (Sandbox Code Playgroud)

我尝试过使用--restrict-file-names = windows选项,但这只能让我这么做

index.html@page=566
Run Code Online (Sandbox Code Playgroud)

任何人都可以解释为什么需要这个以及如何最终得到一个常规的index.html文件?

更新:我采取不同的方法.我发现我可以通过解析输出来获取wget保存的第一个文件名.因此,保存到:之后出现的名称是我需要的名称.

然而,这是由这个奇怪的角色包裹 - 而不仅仅是删除硬编码 - 这是从哪里来的?

wget

22
推荐指数
2
解决办法
5270
查看次数

wkhtmltopdf何时真正失败

我正在使用生成PDF wkhtmltopdf,这很棒。但是,有时该工具返回退出代码,但是在许多情况下,PDF似乎仍然可以正确生成。

我怎么真正知道wkhtmltopdf做不到这项工作?

例子:

http://www.egresadoutec.edu.sv/boletin_pdf_create.php?idbXwt=101给出了404,但实际上整个页面都是正确创建的(尽管12Mb)。 http://www.anarchia.com/link_in_frame.php?link=7243给出404,实际上什么也没有生成,但是文件大小不是0

wkhtmltopdf

5
推荐指数
1
解决办法
3398
查看次数

标签 统计

wget ×1

wkhtmltopdf ×1