我在名为Target_id_convert.txt的文件中有一个列表
70S ribosome
ALK tyrosine kinase receptor
ATP
ATP synthase
Run Code Online (Sandbox Code Playgroud)
期望的输出
('70S ribosome','ALK tyrosine kinase receptor','ATP','ATP synthase')
Run Code Online (Sandbox Code Playgroud)
我写了这段代码
sed -e "s/'/'\\\\''/g;s/\(.*\)/'\1'/" Target_id_convert.txt > Target_id_convert1.txt
tr '\n' ',' < Target_id_convert1.txt > Target_id_convert_output.txt
Run Code Online (Sandbox Code Playgroud)
然后我必须手动编辑文件并在Target_id_convert_output.txt文件中添加(),请让我知道如何有效地完成所有操作,因为它应该是自动化的.
我只想提取那些在输入文件中只出现一次的记录
输入文件1
CHEMBL184618
CHEMBL184618
CHEMBL198362
CHEMBL198362
CHEMBL218394
CHEMBL218394
CHEMBL221959
CHEMBL221959
CHEMBL24828
CHEMBL24827
Run Code Online (Sandbox Code Playgroud)
预期产出
CHEMBL24828
CHEMBL24827
Run Code Online (Sandbox Code Playgroud)
我已经完成了排序Filename.txt | uniq -d查找重复的ID并将它们保存在单独的文件中.然后我找到排序Filename.txt | uniq -c.第三步是从唯一ID中删除重复的ID.我想要一种有效的方法.