use*_*704 7 perl bioinformatics inline-c
我的问题与使用内联C代码有关:是否有必要使用内联堆栈函数(Inline_Stack_Vars)来传入和传出变量,或者在此上下文中是否适合仅修改变量?
为了显示生物序列数据,我需要显示两个对齐字符串之间的差异; 例如给出这两个字符串:
ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
--CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA--
Run Code Online (Sandbox Code Playgroud)
我想得到这个(第二个字符串中的匹配字符替换为'.'.
--.CCC..CT....G...G..........-............---...--
Run Code Online (Sandbox Code Playgroud)
我有很多序列(数百万的Illumina读数),所以转向内联:: c进行字符匹配.以下内联代码似乎工作正常(将第二个参数更改为add_matchchars函数):
#!/usr/bin/perl
use Inline C;
my($seq1,$seq2) = qw/ ATCAGAAA--GACATGGGCCAAAGATTAA-CAGTGGCCATTGACAGGA--
--CCCCAACTGACAGGGGGCAAAGATTAA-CAGTGGCCATTG---GGA-- /;
print $seq1,"\n";
print $seq2,"\n";
add_matchchars($seq1,$seq2);
print $seq2,"\n";
__END__
__C__
void add_matchchars(char *seq1, char *seq2) {
int seq1char;
int seq2char;
while(seq1char = *seq1++ , seq2char = *seq2++) {
if (seq1char == seq2char) {
*seq2--;
if (seq1char != '-') {
*seq2 = '.';
}
*seq2++;
}
//printf("%c-%c\n",seq1char,seq2char);
}
// printf("%s\n%s\n",seq1,seq2);
}
Run Code Online (Sandbox Code Playgroud)
但是1)它是否合理有效(是否有更聪明/更好的方式)?2)它会泄漏内存吗?
你不应该依赖于char *可修改的标量,或者甚至不是标量的原始缓冲区.相反,返回一个新字符串.
该Inline_Stack_Vars用的参数或多个返回值的变量数打交道时,宏是唯一有用的.这里也不是这样的.
您的代码目前没有内存泄漏(您没有在C函数内部分配任何内存),但是存在一些问题,包括:风格,可能的段错误(正确while(seq1char = *seq1++ , seq2char = *seq2++)以while((seq1char = *seq1++) && (seq2char = *seq2++))和Perl的字符串可能包含字符串内完全无效的事实.
我认为让你的C函数直接使用标量是一个更好的主意.大致:
SV *add_matchchars(SV *seq1_sv, SV *seq2_sv) {
STRLEN len1, len2;
char *seq1 = SvPVbyte(seq1_sv, len1);
char *seq2 = SvPVbyte(seq2_sv, len2);
STRLEN min_len = len1 < len2 ? len1 : len2;
SV *seq3_sv = newSVpvn(seq2, min_len);
char *seq3;
STRLEN i;
seq3 = SvPVX(seq3_sv);
for (i = 0; i < min_len; ++i) {
if (seq1[i] == seq2[i])
seq3[i] = '.';
}
return seq3_sv;
}
Run Code Online (Sandbox Code Playgroud)