为什么在合并排序中的阈值交叉之后应使用插入排序

Sex*_*ast 6 sorting algorithm mergesort quicksort divide-and-conquer

我已阅读无处不在,对于分而治之的排序算法像Merge-SortQuicksort,而不是递归,直到只有一个元素是左,这是更好地转移到Insertion-Sort时候一定阈值,比如30元,达到.那很好,但为什么只有Insertion-Sort?为什么不,Bubble-SortSelection-Sort两者都有类似的O(N^2)表现?Insertion-Sort只有当许多元素被预先排序时才应该派上用场(虽然这个优势也应该附带Bubble-Sort),但除此之外,为什么它应该比其他两个元素更有效?

其次,在这个链接中,在第二个答案及其附带的评论中,它表示O(N log N)O(N^2)最高级别相比表现不佳N.怎么会?N^2应该总是表现得比N log N,因为N > log N对于所有N> = 2,对吧?

Ste*_*sop 11

如果你击中Quidsort的每一个分支,当它达到阈值时,你的数据看起来像这样:

[the least 30-ish elements, not in order] [the next 30-ish ] ... [last 30-ish]
Run Code Online (Sandbox Code Playgroud)

插入排序具有相当令人满意的属性,您可以在整个数组上只调用一次,并且它的执行方式与每次为30的每个块调用一次时的执行方式基本相同.因此,不要在循环中调用它,而是最后调用它的选项.这可能不会更快,特别是因为它将整个数据通过缓存拉出额外的时间,但取决于代码的结构,它可能很方便.

冒泡排序和选择排序都没有这个属性,所以我认为答案可能很简单就是"方便".如果有人怀疑选择排序可能会更好,那么举证责任在于他们"证明"它更快.

请注意,这种插入排序的使用也有一个缺点 - 如果你这样做并且你的分区代码中有一个错误,那么它不会丢失任何元素,只是错误地对它们进行分区,你永远不会注意到.

编辑:显然这个修改是由Sedgewick在1975年在QuickSort上写下他的博士.最近由Musser(Introsort的发明者)进行了分析.参考https://en.wikipedia.org/wiki/Introsort

Musser还考虑了Sedgewick延迟小排序对缓存的影响,其中小范围在插入排序的单个传递中最后排序.他报告说,它可以使缓存未命中数增加一倍,但是它的双端队列性能明显更好,应该保留给模板库,部分原因是因为其他情况下立即进行排序的收益并不大.

无论如何,我不认为一般的建议是"无论你做什么,不要使用选择排序".建议是,"插入排序将Quicksort输入到令人惊讶的非小尺寸",当你实现Quicksort时,这很容易向自己证明.如果你想出另一种在同一个小阵列上明显优于插入排序的那种,那些学术资源都没有告诉你不要使用它.我认为令人惊讶的是,建议始终是插入排序,而不是每个消息来源选择自己喜欢的(介绍性教师对泡沫排序有一种坦率的惊人喜好 - 我不介意,如果我再也听不到它).插入排序通常被认为是小数据的"正确答案".问题不在于它是否应该"快速",而是它是否真的存在,而且我从未特别注意到任何消除这一想法的基准.

寻找此类数据的一个地方是Timsort的开发和采用.我很确定蒂姆·彼得斯选择插入是有原因的:他没有提供一般建议,他正在优化图书馆以供实际使用.

  • 选项1:`if(size_left_to do <30){insertion_sort(data_to_do); 继续; }`.插入排序称为"在循环中".选项2:`if(size_left_to_do <30)继续;`.插入排序不在循环中调用,而是在结尾处调用`insertion_sort(the_original_array)`. (2认同)

Fre*_*Foo 7

  1. 实际上,插入排序比bubbleort更快.它们的渐态运行时间是相同的,但插入排序具有更好的常量(每次迭代的操作更少/更便宜).最值得注意的是,它只需要线性数量的元素对交换,并且在每个内部循环中,它执行每个n/2元素之间的比较和可以存储在寄存器中的"固定"元素(同时冒泡排序必须从内存中读取值).即插入排序在其内循环中的工作量少于冒泡排序.
  2. 答案声称10000 Ñ LG Ñ > 10 Ñ ²为"合理" Ñ.这大约是14000个元素.

  • 首先,交换和写入不是一回事:插入排序具有线性交换,但是二次写入.其次,选择排序实际上是最少写入的排序.所以根本不是一个好的解释. (3认同)
  • 需要引用或证明1. (2认同)

ahs*_*aus 5

我很惊讶没有人提到插入排序对于"几乎"排序的数据来说简单得多的简单事实.这就是它被使用的原因.