小编use*_*292的帖子

我正在尝试使用wget检索工作网页,这对于大多数网站使用以下命令都很顺利:

wget -p -k http://www.example.com

在这些情况下,我将最终得到index.html和所需的CSS/JS等.

但是,在某些情况下,url将有一个查询字符串,在这种情况下,我会获得一个附加了查询字符串的index.html.

例

www.onlinetechvision.com/?p=566

结合上面的wget命令将导致:

index.html?page=566

我尝试过使用--restrict-file-names = windows选项,但这只能让我这么做

index.html@page=566

任何人都可以解释为什么需要这个以及如何最终得到一个常规的index.html文件？

更新:我采取不同的方法.我发现我可以通过解析输出来获取wget保存的第一个文件名.因此,保存到:之后出现的名称是我需要的名称.

然而,这是由这个奇怪的角色包裹 - 而不仅仅是删除硬编码 - 这是从哪里来的？

22
推荐指数

2
解决办法

5270
查看次数

我正在使用生成PDF wkhtmltopdf，这很棒。但是，有时该工具返回退出代码，但是在许多情况下，PDF似乎仍然可以正确生成。

我怎么真正知道wkhtmltopdf做不到这项工作？

例子：

http://www.egresadoutec.edu.sv/boletin_pdf_create.php?idbXwt=101给出了404，但实际上整个页面都是正确创建的（尽管12Mb）。 http://www.anarchia.com/link_in_frame.php?link=7243给出404，实际上什么也没有生成，但是文件大小不是0

5
推荐指数

1
解决办法

3398
查看次数

小编use_292的帖子