获取网站下的每个页面

Rya*_*yan 0 java php

我需要一个程序来获取网站下的所有网页。网站是中文的,我想把那些英文单词都弄出来。然后我可以提取我需要的所有信息。对此有何想法?是否有任何软件用于此目的?

如果没有,我想写一个。有什么建议?

非常感谢。

小智 10

使用例如wget -r http://site.to.copy.com递归检索所有网页到您的本地机器(希望它不会太大......),然后您可以搜索或对文件进行任何操作。

  • 您可能还需要考虑使用“--convert-links”标志,以便您可以在本地浏览... (2认同)