当一列中有多个具有重复值的行时,我想选择第一行。
例如:
import pandas as pd
df = pd.DataFrame({'col1':['one', 'one', 'one', 'one', 'one', 'one', 'one', 'one'],
'col2':['ID=ABCD1234', 'ID=ABCD1234', 'ID=ABCD1234', 'ID=ABCD5678',
'ID=ABCD5678', 'ID=ABCD5678', 'ID=ABCD9102', 'ID=ABCD9102']})
Run Code Online (Sandbox Code Playgroud)
熊猫数据框如下所示:
print(df)
col1 col2
0 one ID=ABCD1234
1 one ID=ABCD1234
2 one ID=ABCD1234
3 one ID=ABCD5678
4 one ID=ABCD5678
5 one ID=ABCD5678
6 one ID=ABCD9102
7 one ID=ABCD9102
Run Code Online (Sandbox Code Playgroud)
我希望第 0 行、第 3 行和第 6 行被选中并作为新数据帧输出。
预期输出:
col1 col2
0 one ID=ABCD1234
3 one ID=ABCD5678
6 one ID=ABCD9102
Run Code Online (Sandbox Code Playgroud) 我有一个R脚本(abc.R):
#!/usr/bin/env Rscript
print("HELLO")
Run Code Online (Sandbox Code Playgroud)
还有一个包含R脚本(example.sh)的批处理脚本:
#!/bin/bash
module load Rstats
module load RstatsPackages
Rscript /home1/R_scripts/abc.R > "result.txt"
Run Code Online (Sandbox Code Playgroud)
还有另一个批处理脚本(multiple.sh),它调用上述脚本:
#!/bin/sh
for((i=1;i<=10;i++))
do
sbatch -p normal -t 4:00:00 -N 1 -n 4 example.sh $i
done
sh multiple.sh
Run Code Online (Sandbox Code Playgroud)
该脚本调用上述脚本十次,因此我的Rscript将运行十次。它运行10次,但仅生成一个result.txt。不过,我想多个结果文件,如result1.txt,result2.txt,result3.txt等等。