为什么用 wget 下载同一个网页两次会导致两个不同的文件?

Fra*_*anò 3 diff wget

我正在尝试编写一个脚本,当静态网页发生更改时会通知我。为此,我使用wget下载网页,并diff检查它是否已更改。我正在运行 Ubuntu 20.04 LTS 虚拟机。这是示例:

$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file1
$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file2
$ diff -q file1 file2
Files file1 and file2 differ
Run Code Online (Sandbox Code Playgroud)

如您所见,diff报告两个文件之间的差异。为什么?即使我试图将它们与diff -y它们对我来说看起来一样。

更新

寻找差异与git diff --color-words -- file1 file2给出以下结果:

差异

显然,有一个字段添加了时间戳,在两个文件之一中,另一个文件<!--GENERATED_HEADERS-->中没有。

关于如何解决它的任何想法?

小智 5

您可以通过使用 w3m 和-dump在呈现页面时忽略标签的选项来解决此问题。

$ w3m -dump  https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file1
$ w3m -dump  https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file2
$ if cmp -s file1 file2; then echo "Files are not different"; fi
  Files are not different                                                              
$
Run Code Online (Sandbox Code Playgroud)