use*_*163 7 download wget phpbb
我经常访问的论坛之一(并且还添加了大量优质内容)似乎其服务器存在问题。我对他们解决遇到的问题的能力以及与他提到的一位管理员交谈时他们不备份数据的能力没有信心。
作为一个完整的回退,以防万一出现可怕的错误,我想下载整个论坛。我知道我无法下载数据库或 PHP 文件等...我只想制作整个论坛的本地可浏览副本。
这意味着我可以(当我有时间时)将帖子转移到新网站,如果它们重新开始(有意或无意)。
有什么工具可以做到这一点吗?
旁注:显然我可以在本地浏览它真的很重要......如果每个链接仍然指向' http://www.thesite.com/forum/specific_page.php '而不是'/forum,这将非常困难/specific_page.php'。
我现在正在这样做。这是我正在使用的命令:
wget -k -m -E -p -np -R memberlist.php*,faq.php*,viewtopic.php*p=*,posting.php*,search.php*,ucp.php*,viewonline.php*,*sid*,*view=print*,*start=0* -o log.txt http://www.example.com/forum/
Run Code Online (Sandbox Code Playgroud)
我想去掉那些讨厌的会话 ID 东西(sid=blahblahblah)。它们似乎是由索引页面自动添加的,然后以类似病毒的方式附加到所有链接。除了一个松鼠在某处 - 链接到一个普通的 index.php 然后继续没有 sid= 参数。(也许有一种方法可以强制递归 wget 从 index.php 开始——我不知道)。
我还排除了一些其他导致保存大量垃圾的页面。特别是指定 p= 的 memberlist.php 和 viewtopic.php 可以创建数千个文件!
由于 wget http://savannah.gnu.org/bugs/?20808 中的这个错误,它仍然会下载数量惊人的那些无用文件 - 特别是 viewtopic.php?p= 文件 - 在简单地删除它们之前。所以这会消耗大量的时间和带宽。
尝试一些 wget 标志的组合,例如:
wget -m -k www.example.org/phpbb
Run Code Online (Sandbox Code Playgroud)
其中-m是镜像,-k是“转换链接”。您可能还希望添加 -p 以下载图像,因为我不记得 -m 是否执行此操作。