我正在尝试编写一个脚本,当静态网页发生更改时会通知我。为此,我使用wget
下载网页,并diff
检查它是否已更改。我正在运行 Ubuntu 20.04 LTS 虚拟机。这是示例:
$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file1
$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file2
$ diff -q file1 file2
Files file1 and file2 differ
Run Code Online (Sandbox Code Playgroud)
如您所见,diff
报告两个文件之间的差异。为什么?即使我试图将它们与diff -y
它们对我来说看起来一样。
更新
寻找差异与git diff --color-words -- file1 file2
给出以下结果:
显然,有一个字段添加了时间戳,在两个文件之一中,另一个文件<!--GENERATED_HEADERS-->
中没有。
关于如何解决它的任何想法?
小智 5
您可以通过使用 w3m 和-dump
在呈现页面时忽略标签的选项来解决此问题。
$ w3m -dump https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file1
$ w3m -dump https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 > file2
$ if cmp -s file1 file2; then echo "Files are not different"; fi
Files are not different
$
Run Code Online (Sandbox Code Playgroud)