小编Fra*_*anò的帖子

为什么是tail文件？tr（管道）比多行的 sed 或 perl 快？

我有一个大约一百万行的文件，如下所示：

"ID" "1" "2"
"00000687" 0 1
"00000421" 1 0
"00000421" 1 0
"00000421" 1 0

Run Code Online (Sandbox Code Playgroud)

最后一行重复了超过一百万次。从这个问题中获得灵感，我尝试了一些建议的解决方案，看看哪个更快。我原以为只有一个进程的解决方案会比那些有管道的解决方案更快，因为它们只使用一个进程。但这些是我的测试结果：

tail -n +2 file.txt | tr -d \"

$ time tail -n +2 file.txt | tr -d \" 1> /dev/null

real    0m0,032s
user    0m0,020s
sys     0m0,028s

Run Code Online (Sandbox Code Playgroud)

sed '1d;s/"//g' file.txt

$ time sed '1d;s/"//g' file.txt 1> /dev/null

real    0m0,410s
user    0m0,399s
sys     0m0,011s

Run Code Online (Sandbox Code Playgroud)

perl -ne ' { s/"//g; print if $. > 1 }' file.txt
```
$ time perl -ne ' { s/"//g; …
```
Run Code Online (Sandbox Code Playgroud)

performance sed perl text-processing

Fra*_*anò

2020 05-22

9
推荐指数

2
解决办法

1199
查看次数

`nc -z` 有什么用？

在一个练习的解决方案中，我发现了这一点：

nc -z [serverip] [port]

Run Code Online (Sandbox Code Playgroud)

它有什么作用？

在nc手册页上我发现

-z 零 I/O 模式 [用于扫描]

不是很解释......在网上搜索我找到了Netcat Cheat Sheet，上面写着：

-z：零 I/O 模式（不发送任何数据，只发出一个没有负载的数据包）

那么，为什么我要发送一个没有任何内容的数据包？这就像一个ping？

Fra*_*anò

2020 05-29

7
推荐指数

1
解决办法

1887
查看次数

为什么用 wget 下载同一个网页两次会导致两个不同的文件？

我正在尝试编写一个脚本，当静态网页发生更改时会通知我。为此，我使用wget下载网页，并diff检查它是否已更改。我正在运行 Ubuntu 20.04 LTS 虚拟机。这是示例：

$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file1
$ wget --quiet https://twiki.di.uniroma1.it/twiki/view/Reti_Avanzate/InternetOfThings2021 -O file2
$ diff -q file1 file2
Files file1 and file2 differ

Run Code Online (Sandbox Code Playgroud)

如您所见，diff报告两个文件之间的差异。为什么？即使我试图将它们与diff -y它们对我来说看起来一样。

更新

寻找差异与git diff --color-words -- file1 file2给出以下结果：

显然，有一个字段添加了时间戳，在两个文件之一中，另一个文件中没有。

关于如何解决它的任何想法？

diff wget

Fra*_*anò

2021 06-01

3
推荐指数

1
解决办法

326
查看次数

标签统计

diff ×1

nc ×1

performance ×1

perl ×1

sed ×1

text-processing ×1

wget ×1

为什么是tail文件？tr（管道）比多行的 sed 或 perl 快？

`nc -z` 有什么用？

为什么用 wget 下载同一个网页两次会导致两个不同的文件？

标签 统计

小编Fra_anò的帖子

标签统计