为什么textwrap.wrap()和textwrap.fill()这么慢?例如,要在我的笔记本电脑上包装10000个字符的字符串需要将近两秒半.
$ python -m timeit -n 10 -s 's = "A" * 10000; import textwrap' 'textwrap.fill(s)'
10 loops, best of 3: 2.41 sec per loop
Run Code Online (Sandbox Code Playgroud)
将其与此相应的代码进行比较,该代码根据相关Stack Overflow问题的答案进行调整
#!/usr/bin/env python
# simplewrap.py
def fill(text, width=70):
return '\n'.join(text[i:i+width] for i in
range(0, len(text), width))
Run Code Online (Sandbox Code Playgroud)
它包含的文本数量级比textwrap以下更快:
$ python -m timeit -n 10 -s 's = "A" * 10000; import simplewrap' 'simplewrap.fill(s)'
10 loops, best of 3: 37.2 usec per loop
Run Code Online (Sandbox Code Playgroud)
对代码进行概要分析表明,时间由用于将输入拆分为单词的正则表达式占用.展示相同问题的精简版本是:
import re
s = "A" * 10000
wordsep_re = re.compile(
r'\w+[^\W]-'
)
wordsep_re.split(s)
Run Code Online (Sandbox Code Playgroud)
我相信Python使用递归回溯来匹配正则表达式.我认为最新的事情是python一直试图匹配 - 并且失败,因此不得不备份.
您可以使用:
textwrap.fill(s, break_on_hyphens = False)
Run Code Online (Sandbox Code Playgroud)
你会发现它真的很快.当文本中没有任何空格时,匹配连字符的正则表达式具有病态情况.