Mic*_*x2a 13 python optimization profiling
我正在尝试优化我正在修补的程序,当我注意到这样做value = i % 65536似乎运行得比较慢value = i % (2**16).
为了测试这个,我运行了以下程序:
import cProfile
import pstats
AMOUNT = 100000000
def test1():
for i in xrange(AMOUNT):
value = i % 65536
return
def test2():
for i in xrange(AMOUNT):
value = i % (256**2)
return
def test3():
for i in xrange(AMOUNT):
value = i % (16**4)
return
def test4():
for i in xrange(AMOUNT):
value = i % (4**8)
return
def test5():
for i in xrange(AMOUNT):
value = i % (2**16)
return
def run_tests():
test1()
test2()
test3()
test4()
test5()
return
if __name__ == '__main__':
cProfile.run('run_tests()', 'results')
stats = pstats.Stats('results')
stats.sort_stats('calls', 'nfl')
stats.print_stats()
Run Code Online (Sandbox Code Playgroud)
...产生以下输出:
Fri May 11 15:11:59 2012 results
8 function calls in 40.473 seconds
Ordered by: call count, name/file/line
ncalls tottime percall cumtime percall filename:lineno(function)
1 0.000 0.000 0.000 0.000 {method 'disable' of '_lsprof.Profiler' objects}
1 0.000 0.000 40.473 40.473 <string>:1(<module>)
1 0.000 0.000 40.473 40.473 test.py:31(run_tests)
1 10.466 10.466 10.466 10.466 test.py:6(test1)
1 7.475 7.475 7.475 7.475 test.py:11(test2)
1 7.485 7.485 7.485 7.485 test.py:16(test3)
1 7.539 7.539 7.539 7.539 test.py:21(test4)
1 7.508 7.508 7.508 7.508 test.py:26(test5)
Run Code Online (Sandbox Code Playgroud)
65536在10.466秒时使用最慢,而在7.475秒时进行256**2最快(其他可能的指数值介于两者之间).当然,这种速度差异只有在重复量很大的情况下才会显着,但我仍然很好奇为什么会出现这种情况.
为什么采用数字的mod 65536慢一点,然后使用exponents采用mod?他们应该评估相同的数字,我会认为python解释器在采用mod之前需要更长的时间来完全评估指数.
通过扩展,在python表达式中使用2的幂而不是完全输入数字通常更有效吗?除了模数或其他数字之外,这种模式是否适用于其他数字2?
(顺便说一句,我使用的是Python 2.7.2(32位),我在64位Windows 7笔记本电脑上运行了上述内容).
编辑:
所以我尝试颠倒我调用的函数的顺序,现在反之亦然.看起来无论第一个函数在run_tests使用cProfile时总是运行得有点慢,这很奇怪.所以,经验教训,我猜 - 剖析器很奇怪:D
Nik*_* B. 19
生成的字节码没有区别,因为编译器可以很好地完成工作,并优化了常量算术表达式.这意味着您的测试结果只是一个巧合(尝试以不同的顺序对函数进行计时!).
>>> import dis
>>> dis.dis(test1)
2 0 SETUP_LOOP 30 (to 33)
3 LOAD_GLOBAL 0 (xrange)
6 LOAD_GLOBAL 1 (AMOUNT)
9 CALL_FUNCTION 1
12 GET_ITER
>> 13 FOR_ITER 16 (to 32)
16 STORE_FAST 0 (i)
3 19 LOAD_FAST 0 (i)
22 LOAD_CONST 1 (65536)
25 BINARY_MODULO
26 STORE_FAST 1 (value)
29 JUMP_ABSOLUTE 13
>> 32 POP_BLOCK
4 >> 33 LOAD_CONST 0 (None)
36 RETURN_VALUE
>>> dis.dis(test5)
2 0 SETUP_LOOP 30 (to 33)
3 LOAD_GLOBAL 0 (xrange)
6 LOAD_GLOBAL 1 (AMOUNT)
9 CALL_FUNCTION 1
12 GET_ITER
>> 13 FOR_ITER 16 (to 32)
16 STORE_FAST 0 (i)
3 19 LOAD_FAST 0 (i)
22 LOAD_CONST 3 (65536)
25 BINARY_MODULO
26 STORE_FAST 1 (value)
29 JUMP_ABSOLUTE 13
>> 32 POP_BLOCK
4 >> 33 LOAD_CONST 0 (None)
36 RETURN_VALUE
Run Code Online (Sandbox Code Playgroud)
(实际上存在差异:数字存储在常量表中的不同偏移处.我无法想象这会导致任何差异).
为了完整起见,这是使用该timeit模块的正确测试:
import timeit
setup = "i = 1337"
best1 = best2 = float("inf")
for _ in range(5000):
best1 = min(best1, timeit.timeit("i % 65536", setup=setup, number=10000))
for _ in range(5000):
best2 = min(best2, timeit.timeit("i % (2**16)", setup=setup, number=10000))
print best1
print best2
Run Code Online (Sandbox Code Playgroud)
请注意,我正在测量所需的最短时间,而不是平均值.如果由于某种原因需要更长时间,这只是意味着它被更频繁地中断(因为代码不依赖于CPU的功能).
嗯,使用dis来显示python字节代码表明函数是相同的.Python已经优化了常量(正如预期的那样).所以我怀疑时差是缓存效果.我的笔记本电脑上的计时结果(在Linux上使用Python 2.7.3 64位)
Fri May 11 23:37:49 2012 results
8 function calls in 38.825 seconds
Ordered by: call count, name/file/line
ncalls tottime percall cumtime percall filename:lineno(function)
1 0.000 0.000 0.000 0.000 {method 'disable' of '_lsprof.Profiler' objects}
1 0.000 0.000 38.825 38.825 <string>:1(<module>)
1 0.000 0.000 38.825 38.825 z.py:31(run_tests)
1 7.880 7.880 7.880 7.880 z.py:6(test1)
1 7.658 7.658 7.658 7.658 z.py:11(test2)
1 7.806 7.806 7.806 7.806 z.py:16(test3)
1 7.784 7.784 7.784 7.784 z.py:21(test4)
1 7.697 7.697 7.697 7.697 z.py:26(test5)
Run Code Online (Sandbox Code Playgroud)
几乎完全相同
>>> from dis import dis
>>> def test1():
... for i in xrange(AMOUNT):
... value = i % 65536
... return
...
>>> def test5():
... for i in xrange(AMOUNT):
... value = i % (2**16)
... return
...
>>> dis(test1)
2 0 SETUP_LOOP 30 (to 33)
3 LOAD_GLOBAL 0 (xrange)
6 LOAD_GLOBAL 1 (AMOUNT)
9 CALL_FUNCTION 1
12 GET_ITER
>> 13 FOR_ITER 16 (to 32)
16 STORE_FAST 0 (i)
3 19 LOAD_FAST 0 (i)
22 LOAD_CONST 1 (65536)
25 BINARY_MODULO
26 STORE_FAST 1 (value)
29 JUMP_ABSOLUTE 13
>> 32 POP_BLOCK
4 >> 33 LOAD_CONST 0 (None)
36 RETURN_VALUE
>>> dis(test5)
2 0 SETUP_LOOP 30 (to 33)
3 LOAD_GLOBAL 0 (xrange)
6 LOAD_GLOBAL 1 (AMOUNT)
9 CALL_FUNCTION 1
12 GET_ITER
>> 13 FOR_ITER 16 (to 32)
16 STORE_FAST 0 (i)
3 19 LOAD_FAST 0 (i)
22 LOAD_CONST 3 (65536)
25 BINARY_MODULO
26 STORE_FAST 1 (value)
29 JUMP_ABSOLUTE 13
>> 32 POP_BLOCK
4 >> 33 LOAD_CONST 0 (None)
36 RETURN_VALUE
>>>
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3283 次 |
| 最近记录: |