标签: words

编辑：我把这个搞得太复杂了。这与反向 grep 无关。我仅使用得到相同的结果grep -x -f stop.txt < in.txt。如果在停用词文件中who位于前面whose，则结果只是who. 当停用词文件中的顺序相反时，in.txt会找到中的两行。我感觉我根本就不懂grep。

我无法让反向 grep 像我期望的那样工作，以便从文件中删除包含停用词的行。停用词的给出顺序会影响结果。

假设我有两个文件。输入文件in.txt：

who
whose

Run Code Online (Sandbox Code Playgroud)

以及一个包含停用词列表的文件stop.txt：

who
whose

Run Code Online (Sandbox Code Playgroud)

如果我in.txt使用反向 grep 搜索对中的停用词进行“过滤” stop.txt，我会得到：

$ grep -vx -f stop.txt < in.txt
whose
$

Run Code Online (Sandbox Code Playgroud)

仅当我更改stop.txt为

whose
who

Run Code Online (Sandbox Code Playgroud)

我得到：

$ grep -vx -f stop.txt < in.txt
$

Run Code Online (Sandbox Code Playgroud)

我不明白为什么带有停用词的文件中的单词顺序很重要。

grep words

Til*_*ann

2022 09-09

4
推荐指数

1
解决办法

361
查看次数

算术替换中的命令替换是否会拆分单词？

我好像从本站的评论中记得算术展开的内容可能是分词的，但是又找不到评论了。

考虑以下代码：

printf '%d\n' "$(($(sed -n '/my regex/{=;q;}' myfile)-1))"

Run Code Online (Sandbox Code Playgroud)

如果sed命令输出一个多位数字并且$IFS包含数字，那么在算术发生之前，命令替换是否会进行单词拆分？

（我已经使用额外的双引号进行了测试：

printf '%d\n' "$(("$(sed -n '/my regex/{=;q;}' myfile)"-1))"

Run Code Online (Sandbox Code Playgroud)

这不起作用。）

顺便说一句，上面的示例代码是我刚刚在 Stack Overflow 上发布的这个函数的简化形式的更改。

bash arithmetic words

Wil*_*ard

2017 05-23

3
推荐指数

1
解决办法

637
查看次数

谁负责 /usr/share/dict/words ？（发现诽谤）

我正在编写一个使用 /usr/share/dict/words 文件生成会话密钥的应用程序。

我震惊地发现文件中最令人震惊的种族诽谤——“N字”（不同的拼写）。

谁负责维护这个文件，为什么文件里会有这些文字？

filesystems files words

作者

lucky-day

-5
推荐指数

1
解决办法

264
查看次数

标签统计

words ×5

arithmetic ×1

bash ×1

command-line ×1

dictionary ×1

files ×1

filesystems ×1

grep ×1

split ×1

Bash 脚本：在每个字母上拆分单词

/usr/share/dict/words 中的单词从何而来？

反向 grep 未找到所有匹配行

算术替换中的命令替换是否会拆分单词？

谁负责 /usr/share/dict/words ？（发现诽谤）

标签 统计

标签统计