相关疑难解决方法(0)

Quicksort:选择枢轴

实现Quicksort时,您需要做的一件事就是选择一个数据透视表.但是当我看下面的伪代码时,我不知道应该如何选择枢轴.列表的第一个要素？别的什么？

 function quicksort(array)
     var list less, greater
     if length(array) ? 1  
         return array  
     select and remove a pivot value pivot from array
     for each x in array
         if x ? pivot then append x to less
         else append x to greater
     return concatenate(quicksort(less), pivot, quicksort(greater))

Run Code Online (Sandbox Code Playgroud)

有人可以帮助我掌握选择枢轴的概念,以及不同的场景是否需要不同的策略.

sorting algorithm pseudocode quicksort

Jac*_*sen

2013 12-01

106
推荐指数

5
解决办法

12万
查看次数

需要一种按日期对100 GB日志文件进行排序的方法

所以,由于一些奇怪的原因,我最终得到一个100GB的未分类日志文件(实际上它是部分排序的),而我试图应用的算法需要排序数据.日志文件中的一行看起来像这样

data <date> data data more data

Run Code Online (Sandbox Code Playgroud)

我可以在工作站上访问C#4.0和大约4 GB的RAM.我认为合并 - 某种类型在这里最好,但是我自己实现这些算法还不够 - 我想问一下我是否可以采取某种捷径.

顺便说一句,解析日期字符串DateTime.Parse()非常慢,占用了大量的CPU时间 - chugging -rate几乎是10 MB /秒.有比以下更快的方式吗？

    public static DateTime Parse(string data)
    {            
        int year, month, day;

        int.TryParse(data.Substring(0, 4), out year);
        int.TryParse(data.Substring(5, 2), out month);
        int.TryParse(data.Substring(8, 2), out day);

        return new DateTime(year, month, day);
    }

Run Code Online (Sandbox Code Playgroud)

我写道,为了加快速度DateTime.Parse(),它确实运行良好,但仍然需要大量的循环.

请注意,对于当前的日志文件,我也对小时,分钟和秒感兴趣.我知道我可以使用格式提供DateTime.Parse(),但这似乎并没有加快它的速度.

我正在寻找正确方向的推动,提前谢谢.

编辑:有些人建议我使用字符串比较来比较日期.这适用于排序阶段,但我确实需要解析算法的日期.我仍然不知道如何在4GB的免费RAM上对100GB文件进行排序,而无需手动操作.

编辑2:嗯,多亏了我使用windows排序的一些建议,我发现Linux上有类似的工具.基本上你叫sort,它会为你修复一切.正如我们所说,它正在做一些事情,我希望它能尽快结束.我正在使用的命令是

sort -k 2b 2008.log > 2008.sorted.log

Run Code Online (Sandbox Code Playgroud)

-k指定我要对第二行进行排序,第二行是通常YYYY-MM-DD hh:mm:ss.msek格式的日期时间字符串.我必须承认,man-pages缺乏解释所有选项,但我通过运行找到了很多例子info coreutils …

c# sorting date-sorting

Gle*_*eno

2010 09-29

33
推荐指数

5
解决办法

9364
查看次数

排序结果数组

我在Adobe采访中被问到这个问题:

我们有一个整数数组,按升序排序.我们还有3个整数A,B和C.我们需要申请数组中的A*x*x + B*x + C每个元素x并返回相应的排序数组.

示例I给出了:

Input array = -1 0 1 2 3 4
A = -1, B = 2, C = -1`

Run Code Online (Sandbox Code Playgroud)

将公式应用于每个元素的-4 -1 0 -1 -4 -9
结果=所以预期结果= -9 -4 -4 -1 -1 0(已排序)

我最好的解决方案是应用配方并对其进行分类以产生O(nlogn)解决方案.我无法做得更好.

任何改进它的指导都是有帮助的.

arrays sorting algorithm

har*_*mat

2012 05-17

15
推荐指数

2
解决办法

1470
查看次数

无论如何都要对这类数据进行优化排序？

我正在排序整数键的数组.

有关数据的信息:

数组长度为1176个元素
钥匙在750 000至135 000 000之间; 0也是可能的
有很多重复项,在每个数组中只有48到100个不同的键,但是不可能预测哪些值会超出整个范围.
有很多长的排序子序列,大多数数组由33到80个排序的子序列组成
最小的元素是0; 0的数量是可预测的并且在非常窄的范围内,每个阵列大约150个

到目前为止我尝试了什么:

stdlib.h qsort ;

这很慢,现在我的函数在每次执行的排序上花费0.6秒,stdlib.h qsort是1.0s; 这与std :: sort具有相同的性能
蒂姆索特 ;

我试过这个:https://github.com/swenson/sort和这个:http://code.google.com/p/timsort/source/browse/trunk/timSort.c？specs = snn17&r = 17 ; 两者都明显慢于stdlib qsort
http://www.ucw.cz/libucw/ ;

到目前为止,他们对快速排序和插入排序的组合对我的数据来说是最快的; 我尝试了各种设置和pivot作为中间元素(不是3的中位数)和插入排序从28个元素子数组开始(默认情况下不是8)提供最佳性能
贝壳排序 ;

本文中的差距很简单:http://en.wikipedia.org/wiki/Shellsort ; 它很不错,虽然比stdlib qsort慢