如何将一定长度的字符串与正则表达式匹配

Nic*_*rry 6 python regex

对于我的项目,我正在尝试实现BitTorrent协议的一小部分,可在此处找到.具体来说,我想使用它的"Bencoding"部分,这是一种安全编码数据以便通过套接字传输的方法.格式如下:

8:a string => "a string"
i1234e => 1234
l1:a1:be => ['a', 'b']
d1:a1:b3:one3:twoe => {'a':'b', 'one':two}
Run Code Online (Sandbox Code Playgroud)

编码部分很简单,但解码变得非常麻烦.例如,如果我有一个字符串列表,我无法将它们分成单独的字符串.我尝试了几种不同的解决方案,包括PyParsing和自定义令牌解析器.我目前正在尝试使用正则表达式,它看起来相当不错,但我仍然挂在字符串问题上.我现在的正则表达式是:

(?P<length>\d+):(?P<contents>.{\1})
Run Code Online (Sandbox Code Playgroud)

但是,我似乎无法使用第一组作为第二组的长度.有什么好办法吗?或者我接近这一切都错了,答案就在我面前?

Tri*_*ych 8

你用于此的任何解析器都需要是有状态的(即记住东西),并且正则表达式基本上不是有状态的.他们是这项工作的错误工具.

如果这些是您唯一需要担心的数据类型,我想我只是为每种数据类型编写自定义解析器,在读取第一个字符后将控制权传递给相应的解析器.

我现在实际上实现了一个,但现在已经很晚了.

好吧我决定写一个实现:

from StringIO import StringIO
import string

inputs = ["10:a stringly",
         "i1234e" ,
         "l1:a1:be",
         "d1:a1:b3:one3:twoe"]

# Constants
DICT_TYPE = 'd'
LIST_TYPE = 'l'
INT_TYPE  = 'i'
TOKEN_EOF = ''
TOKEN_END = 'e'
COLON     = ':'


class BadTypeIndicatorException(Exception):pass


def read_int(stream):

   s = ""

   while True:
      ch = stream.read(1)
      if ch not in [TOKEN_EOF, TOKEN_END, COLON]:
         s += ch
      else:
         break

   return s


def tokenize(stream):

   s = ""

   while True:

      ch = stream.read(1)

      if ch == TOKEN_END or ch == TOKEN_EOF:
         return 

      if ch == COLON:
         length = int(s)
         yield stream.read(length)
         s = ""

      else:
         s += ch


def parse(stream):

   TYPE = stream.read(1)

   if TYPE in string.digits:
      length = int( TYPE + read_int(stream) )
      return stream.read(length)

   elif TYPE is INT_TYPE: 
      return int( read_int(stream) )

   elif TYPE is LIST_TYPE: 
      return list(tokenize(stream))

   elif TYPE is DICT_TYPE:
      tokens = list(tokenize(stream))
      return dict(zip(tokens[0::2], tokens[1::2]))

   else: 
      raise BadTypeIndicatorException



for input in inputs:
   stream = StringIO(input)
   print parse(stream)
Run Code Online (Sandbox Code Playgroud)