Python tabstop-aware len()和填充函数

smc*_*mci 3 python function padding tabstop

Python的len()和填充函数(如string.ljust())不能识别tabstop,即它们将'\ t'视为任何其他单宽度字符,并且不会将len舍入到最接近的tabstop倍数.例:

len('Bear\tnecessities\t')
Run Code Online (Sandbox Code Playgroud)

是17而不是24(即4+(8-4)+11+(8-3))

并说我也想要一个pad_with_tabs(s)这样的功能

pad_with_tabs('Bear', 15) = 'Bear\t\t'
Run Code Online (Sandbox Code Playgroud)

寻找这些的简单实现 - 首先是紧凑性和可读性,效率第二.这是一个基本但令人恼火的问题.@gnibbler - 你能展示一个纯粹的Pythonic解决方案,即使效率低20倍吗?

当然你可以使用str.expandtabs(TABWIDTH)来回转换,但这很笨重.导入数学也变得非常TABWIDTH * int( math.ceil(len(s)*1.0/TABWIDTH) )矫枉过正.

我无法管理比以下更优雅的东西:

TABWIDTH = 8

def pad_with_tabs(s,maxlen):
  s_len = len(s)
  while s_len < maxlen:
    s += '\t'
    s_len += TABWIDTH - (s_len % TABWIDTH)
  return s
Run Code Online (Sandbox Code Playgroud)

并且由于Python字符串是不可变的,除非我们想将我们的函数修补为字符串模块以将其添加为方法,我们还必须分配给函数的结果:

s = pad_with_tabs(s, ...)
Run Code Online (Sandbox Code Playgroud)

特别是我无法使用list-comprehension或string.join(...)获得干净的方法

''.join([s, '\t' * ntabs])
Run Code Online (Sandbox Code Playgroud)

没有特殊情况下len(s)<TABWIDTH的整数倍,或len(s)> = maxlen的情况.

任何人都可以显示更好的len()和pad_with_tabs()函数吗?

Joh*_*ooy 6

TABWIDTH=8
def my_len(s):
    return len(s.expandtabs(TABWIDTH))

def pad_with_tabs(s,maxlen):
    return s+"\t"*((maxlen-len(s)-1)/TABWIDTH+1)
Run Code Online (Sandbox Code Playgroud)

我为什么要用expandtabs()
嗯,这很快

$ python -m timeit '"Bear\tnecessities\t".expandtabs()'
1000000 loops, best of 3: 0.602 usec per loop
$ python -m timeit 'for c in "Bear\tnecessities\t":pass'
100000 loops, best of 3: 2.32 usec per loop
$ python -m timeit '[c for c in "Bear\tnecessities\t"]'
100000 loops, best of 3: 4.17 usec per loop
$ python -m timeit 'map(None,"Bear\tnecessities\t")'
100000 loops, best of 3: 2.25 usec per loop
Run Code Online (Sandbox Code Playgroud)

迭代你的字符串的任何东西都会变慢,因为只要迭代比expandtabs你在循环中什么都不做就慢了大约4倍.

$ python -m timeit '"Bear\tnecessities\t".split("\t")'
1000000 loops, best of 3: 0.868 usec per loop
Run Code Online (Sandbox Code Playgroud)

即使只是拆分选项卡也需要更长时间.您仍然需要迭代拆分并将每个项目填充到tabstop

  • `pad_with_tabs` 可能应该调用 `my_len` 而不是 `len`,以防要进行制表符填充的字符串中嵌入制表符。 (2认同)