lambda vs. operator.attrgetter('xxx')作为Python中的排序键函数

Question

lambda vs. operator.attrgetter('xxx')作为Python中的排序键函数

我正在看一些使用比较函数进行大量排序调用的代码,看起来应该使用关键函数.

如果你要改变seq.sort(lambda x,y: cmp(x.xxx, y.xxx)),这是更好的:

seq.sort(key=operator.attrgetter('xxx'))

Run Code Online (Sandbox Code Playgroud)

要么:

seq.sort(key=lambda a:a.xxx)

Run Code Online (Sandbox Code Playgroud)

我也有兴趣评论对现有代码进行更改的优点.

Answer 1

Ale*_*lli 21

"对现有代码进行更改"是程序演变的方式;-).编写一系列测试,使用现有代码提供已知结果,保存这些结果(在测试环境中通常称为"黄金文件"); 然后进行更改,重新运行测试,并验证(理想情况下是以自动方式)测试结果的唯一变化是那些专门用于那些的变化- 没有不希望的或意外的副作用.当然,人们可以使用更复杂的质量保证策略,但这是许多"集成测试"方法的要点.

至于编写简单key=函数的两种方法,设计意图是operator.attrgetter通过更专业化来加快速度,但至少在当前版本的Python中,速度没有可测量的差异.既然如此,对于这种特殊情况,我会推荐lambda,因为它更简洁和一般(我通常不是一个lambda爱好者,请注意! - ).

我同意亚历克斯的答案(那是他不是lambda爱人):-)但也是lambda的概念.在上面的示例中,它可能会快一点,因为您不必查找`operator`或`operator.attrgetter()`...您已经拥有了实际的函数对象!然而,正如亚历克斯已经说过的那样,它几乎不引人注意,但是`lambda`解决方案确实通过更容易阅读来赢得Python Zen点. (7认同)
@wescpy `attrgetter` 和 `lambda` 都必须做相同数量的工作来查找属性，并且当您开始排序时，它们都被创建一次。但是 lambda 每次调用都需要一个新的 Python Stack 框架（相对昂贵），而 `attrgetter` 实例不需要，所以 `attrgetter` 更快。我发现内联 lambda 并不比 `attrgetter` 更容易阅读，所以对我来说，`attrgetter` 获胜。 (3认同)

Answer 2

Mar*_*ers 10

当纯粹选择在attrgetter('attributename')和lambda o: o.attributename作为排序键之间时,使用attrgetter()是两者中更快的选择.

请记住,在排序之前,键功能仅对列表中的每个元素应用一次,因此为了比较两者,我们可以在计时中直接使用它们:

>>> from timeit import Timer
>>> from random import randint
>>> from dataclasses import dataclass, field
>>> @dataclass
... class Foo:
...     bar: int = field(default_factory=lambda: randint(1, 10**6))
...
>>> testdata = [Foo() for _ in range(1000)]
>>> def test_function(objects, key):
...     [key(o) for o in objects]
...
>>> stmt = 't(testdata, key)'
>>> setup = 'from __main__ import test_function as t, testdata; '
>>> tests = {
...     'lambda': setup + 'key=lambda o: o.bar',
...     'attrgetter': setup + 'from operator import attrgetter; key=attrgetter("bar")'
... }
>>> for name, tsetup in tests.items():
...     count, total = Timer(stmt, tsetup).autorange()
...     print(f"{name:>10}: {total / count * 10 ** 6:7.3f} microseconds ({count} repetitions)")
...
    lambda: 130.495 microseconds (2000 repetitions)
attrgetter:  92.850 microseconds (5000 repetitions)

Run Code Online (Sandbox Code Playgroud)

所以应用attrgetter('bar')1000次比a快约40μs lambda.这是因为调用Python函数会产生一定的开销,而不是调用生成的本机函数attrgetter().

这种速度优势也转化为更快的排序:

>>> def test_function(objects, key):
...     sorted(objects, key=key)
...
>>> for name, tsetup in tests.items():
...     count, total = Timer(stmt, tsetup).autorange()
...     print(f"{name:>10}: {total / count * 10 ** 6:7.3f} microseconds ({count} repetitions)")
...
    lambda: 218.715 microseconds (1000 repetitions)
attrgetter: 169.064 microseconds (2000 repetitions)

Run Code Online (Sandbox Code Playgroud)

@onepiece：“operator”模块实现仅在无法导入 C 扩展的情况下存在。*真正的*源代码可以在 [`Modules/_operator.c`](https://github.com/python/cpython/blob/3.8/Modules/_operator.c#L1138-L1480) 中找到，并且[导入到`operator.py`](https://github.com/python/cpython/blob/3.8/Lib/operator.py#L407-L412)，替换 Python 版本。我所说的本机函数是指在用 C 编写的扩展模块中实现的对象，该模块随 Python 安装一起提供。 (2认同)

Answer 3

YBa*_*iss 6

正如之前的评论者所说，attrgetter速度稍快一些，但在很多情况下，差异很小（〜微秒）。

关于可读性，我个人更喜欢lambda它，因为它是人们以前在不同上下文中见过的结构，因此其他人可能更容易阅读和理解。

lambda另一项需要注意的是，与使用不同的是，在使用时，您的 IDE 应该能够发出 attr 名称拼写错误的信号attrgetter。

一般来说，如果替代方案足够容易编写和阅读，我倾向于选择不需要额外导入的构造。

归档时间：	15 年，6 月前
查看次数：	4985 次
最近记录：	6 年，1 月前