计算与正则表达式通配符匹配的字符串中特定字符的匹配数

Gil*_*Gil 9 regex bash perl awk sed

我可以保留各自不同的字符在正则表达式匹配的计数本身

假设正则表达式看起来像 />(.*)[^a]+/

我可以记录p组中捕获的字符串中的字母数(.*)吗?

Bor*_*din 5

您必须捕获匹配的字符串并单独处理它.

此代码演示

use strict;
use warnings;

my $str = '> plantagenetgoosewagonattributes';

if ($str =~ />(.*)[^a]+/) {
  my $substr = $1;
  my %counts;
  $counts{$_}++ for $substr =~ /./g;
  print "'$_' - $counts{$_}\n" for sort keys %counts;
}
Run Code Online (Sandbox Code Playgroud)

产量

' ' - 1
'a' - 4
'b' - 1
'e' - 4
'g' - 3
'i' - 1
'l' - 1
'n' - 3
'o' - 3
'p' - 1
'r' - 1
's' - 1
't' - 5
'u' - 1
'w' - 1
Run Code Online (Sandbox Code Playgroud)


ike*_*ami 5

在正则表达式之外:

my $p_count = map /p/g, />(.*)[^a]/;
Run Code Online (Sandbox Code Playgroud)

自包含:

local our $p_count;
/
   (?{ 0 })
   >
   (?: p (?{ $^R + 1 })
   |   [^p]
   )*
   [^a]
   (?{ $p_count = $^R; })
/x;
Run Code Online (Sandbox Code Playgroud)

在这两种情况下,您都可以轻松扩展它以计算所有字母.例如,

my %counts;
if (my ($seq = />(.*)[^a]/) {
   ++$counts{$_} for split //, $seq;
}

my $p_count = $counts{'p'};
Run Code Online (Sandbox Code Playgroud)


fil*_*nov 3

AFAIK,你不能。您只能通过括号捕获某些组,然后检查该组捕获的数据的长度。