按Python中的计数排列多个列表的元素

Tom*_*wik 3 python list set ranking rank

我想根据元素在每个列表中出现的频率对多个列表进行排名.例:

list1 = 1,2,3,4
list2 = 4,5,6,7
list3 = 4,1,8,9

结果= 4,1,2,3,4,5,6,7,8(4次计数3次,1次2次,其余1次)

我已经尝试了以下但我需要一些更聪明的东西,我可以用任何大量的列表.


 l = []
 l.append([ 1, 2, 3, 4, 5])
 l.append([ 1, 9, 3, 4, 5])
 l.append([ 1, 10, 8, 4, 5])
 l.append([ 1, 12, 13, 7, 5])
 l.append([ 1, 14, 13, 13, 6])

 x1 = set(l[0]) & set(l[1]) & set(l[2]) & set(l[3])
 x2 = set(l[0]) & set(l[1]) & set(l[2]) & set(l[4])
 x3 = set(l[0]) & set(l[1]) & set(l[3]) & set(l[4])
 x4 = set(l[0]) & set(l[2]) & set(l[3]) & set(l[4])
 x5 = set(l[1]) & set(l[2]) & set(l[3]) & set(l[4])
 set1 = set(x1) | set(x2) | set(x3) | set(x4) | set(x5)

 a1 = list(set(l[0]) & set(l[1]) & set(l[2]) & set(l[3]) & set(l[4]))
 a2 = getDifference(list(set1),a1)
 print a1
 print a2
Run Code Online (Sandbox Code Playgroud)

现在这里是问题...我可以一次又一次地用a3,a4和a5这样做,但它太复杂了,我需要一个功能...但我不知道怎么...我的数学卡住了;)

已解决:非常感谢您的讨论.作为一个新人我喜欢这个系统:快速+信息.你帮了我一切!泰

小智 6

import collections

data = [
  [1, 2, 3, 4, 5],
  [1, 9, 3, 4, 5],
  [1, 10, 8, 4, 5],
  [1, 12, 13, 7, 5],
  [1, 14, 13, 13, 6],
]

def sorted_by_count(lists):
  counts = collections.defaultdict(int)
  for L in lists:
    for n in L:
      counts[n] += 1

  return [num for num, count in
          sorted(counts.items(),
                 key=lambda k_v: (k_v[1], k_v[0]),
                 reverse=True)]

print sorted_by_count(data)
Run Code Online (Sandbox Code Playgroud)

现在让我们概括一下(采用任何可迭代的,放宽的哈希要求),允许键和反向参数(匹配排序),并重命名为freq_sorted:

def freq_sorted(iterable, key=None, reverse=False, include_freq=False):
  """Return a list of items from iterable sorted by frequency.

  If include_freq, (item, freq) is returned instead of item.

  key(item) must be hashable, but items need not be.

  *Higher* frequencies are returned first.  Within the same frequency group,
  items are ordered according to key(item).
  """
  if key is None:
    key = lambda x: x

  key_counts = collections.defaultdict(int)
  items = {}
  for n in iterable:
    k = key(n)
    key_counts[k] += 1
    items.setdefault(k, n)

  if include_freq:
    def get_item(k, c):
      return items[k], c
  else:
    def get_item(k, c):
      return items[k]

  return [get_item(k, c) for k, c in
          sorted(key_counts.items(),
                 key=lambda kc: (-kc[1], kc[0]),
                 reverse=reverse)]
Run Code Online (Sandbox Code Playgroud)

例:

>>> import itertools
>>> print freq_sorted(itertools.chain.from_iterable(data))
[1, 5, 4, 13, 3, 2, 6, 7, 8, 9, 10, 12, 14]
>>> print freq_sorted(itertools.chain.from_iterable(data), include_freq=True)
# (slightly reformatted)
[(1, 5),
 (5, 4),
 (4, 3), (13, 3),
 (3, 2),
 (2, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (12, 1), (14, 1)]
Run Code Online (Sandbox Code Playgroud)

  • 两个for循环不是使得这些答案中的一些O(n ^ 2),而这一个不是.它在链接列表中的每个项目上调用count(x),使它们成为O(n ^ 2). (2认同)
  • proxylittle:n 是 `lists` 中每个列表的长度总和意味着我的嵌套 for 循环仍然只有 O(n),或者“原始数据中的每个项目只处理一次”(粗略简化,并非严格正确,但 O(2n) 仍然是 O(n))。排序也是 O(m log m),最终的列表理解是 O(m)(其中 m 是唯一项的数量),所以整个函数是 O(n log n)(m 不能大于 n) . 也就是说,“最快”的解决方案仍然取决于它的实现方式和输入的特性,但算法复杂性是你如何概括的。 (2认同)