Mal*_*umi 10 curl wget download web-scraping httrack
互联网上有许多工具可以下载网站的静态副本,例如HTTrack.还有许多工具,一些商业用于"抓取"来自网站的内容,例如Mozenda.然后有一些工具显然内置在PHP和*nix等程序中,你可以在其中"file_get_contents"或"wget"或"cURL"或只是"file()".
我完全被所有这一切搞糊涂了,我认为主要原因是我遇到的所有描述都没有使用相同的词汇.从表面上看,至少看起来他们都在做同样的事情,但也许不是.
这是我的问题.这些工具到底在做什么?他们做同样的事吗?他们是通过不同的技术做同样的事吗?如果他们没有做同样的事情,他们有什么不同?
Arm*_*n H 12
首先,让我澄清"镜像"和"刮擦"之间的区别.
镜像是指下载网站的全部内容或其中一些重要部分(包括HTML,图像,脚本,CSS样式表等).这通常是为了保留和扩展对有价值(通常是有限的)互联网资源的访问,或者添加额外的故障转移冗余.例如,许多大学和IT公司反映了各种Linux供应商的发布档案.镜像可能意味着您计划在自己的服务器上托管该网站的副本(原始内容所有者的许可).
刮擦是指从网站复制和提取一些有趣的数据.与镜像不同,抓取针对特定数据集(名称,电话号码,股票报价等)而不是站点的整个内容.例如,您可以"刮取"美国人口普查局的平均收入数据或Google财经的股票报价.这有时是针对主持人的条款和条件进行的,这使其成为非法行为.
可以组合这两者以便将数据复制(镜像)与信息提取(刮除)问题分开.例如,如果数据的提取和分析过程缓慢或过程密集,您可能会发现它更快地镜像站点,然后刮取本地副本.
回答你的其余问题......
file_get_contents和filePHP函数用于从本地或远程计算机读取文件.该文件可以是HTML文件,也可以是其他内容,如文本文件或电子表格.这不是"镜像"或"抓取"通常所指的内容,尽管您可以使用这些来编写自己的基于PHP的镜像/刮刀.
wget并且curl是使用各种选项,条件和协议从远程服务器下载一个或多个文件的命令行独立程序.两者都是非常强大和流行的工具,主要区别在于它wget具有丰富的内置功能,可以镜像整个网站.
HTTrackwget与其意图类似,但使用GUI而不是命令行.这使得它更容易用于那些不方便从终端运行命令的人,代价是失去了提供的功能和灵活性wget.
您可以使用HTTrack和wget进行镜像,但是如果这是您的最终目标,则必须在生成的下载数据上运行您自己的程序以提取(抓取)信息.
Mozenda是刮刀,不像HTTrack,wget或者curl让你的目标要提取特定的数据,而不是盲目地复制所有内容.然而,我对它几乎没有经验.
PS我通常wget用来镜像我感兴趣的HTML页面,然后运行Ruby和R脚本的组合来提取和分析数据.
| 归档时间: |
|
| 查看次数: |
5510 次 |
| 最近记录: |