我有两个清单.我需要确定第一个列表中哪个单词最常出现在第二个列表中.第一个,list1.txt包含一个单词列表,按字母顺序排序,没有重复.我使用了一些脚本来确保每个单词出现在一个唯一的行上,例如:
canyon
fish
forest
mountain
river
Run Code Online (Sandbox Code Playgroud)
第二个文件list2.txt是UTF-8,还包含许多项目.我还使用了一些脚本来确保每个单词出现在一个唯一的行上,但有些项目不是单词,有些可能会出现很多次,例如:
fish
canyon
ocean
ocean
ocean
ocean
1423
fish
109
fish
109
109
ocean
Run Code Online (Sandbox Code Playgroud)
list1.txt最常出现在list2.txt.这是我到目前为止所拥有的.首先,它搜索每个单词并创建一个包含匹配项的CSV文件:
#!/bin/bash
while read -r line
do
count=$(grep -c ^$line list2.txt)
echo $line”,”$count >> found.csv
done < ./list1.txt
Run Code Online (Sandbox Code Playgroud)
之后,found.csv按第二列降序排序.输出是出现在第一行的单词.我不认为,这是一个很好的脚本,因为它不是那么有效,并且可能没有最频繁的匹配项,例如:
list1.txt出现任何单词list2.txt,则输出只是文件中的第一个单词list1.txt,例如"canyon".如何创建一个更有效的脚本,该脚本可以查找第一个列表中哪个词最常出现在第二个列表中?
您可以使用以下管道:
grep -Ff list1.txt list2.txt | sort | uniq -c | sort -n | tail -n1
Run Code Online (Sandbox Code Playgroud)
F告诉grep搜索文字单词,f告诉它list1.txt用作要搜索的单词列表.其余的对匹配进行排序,计算重复次数,并根据出现的次数对它们进行排序.最后一部分选择最后一行,即最常见的一行(加上出现次数).
| 归档时间: |
|
| 查看次数: |
1393 次 |
| 最近记录: |