小编Shu*_*wag的帖子

为什么我们通过堆而不是二进制搜索树进行排序？

可以在O(n logn)时间内从列表构造堆,因为将元素插入堆需要O(logn)时间并且有n个元素.

类似地,可以在O(n logn)时间内从列表构造二叉搜索树,因为将元素插入到BST中需要平均登录时间并且存在n个元素.

从最小到最大遍历堆需要O(n logn)时间(因为我们必须弹出n个元素,并且每个pop需要O(logn)接收器操作).从最小到最大遍历BST需要O(n)时间(字面上只是顺序遍历).

所以,在我看来,构造两个结构需要相同的时间,但BST迭代的速度更快.那么,为什么我们使用"Heapsort"代替"BSTsort"呢？

编辑:感谢Tobias和lrlreon的回答!总之,以下是我们使用堆而不是BST进行排序的要点.

堆的构造实际上可以在O(n)时间内完成,而不是O(nlogn)时间.这使堆构造比BST构造更快.
此外,数组可以很容易地就地转换为堆,因为堆总是完整的二叉树.BST不能轻易实现为数组,因为BST不能保证是完整的二叉树.这意味着BST需要额外的O(n)空间分配来进行排序,而Heaps只需要O(1).
堆上的所有操作都保证为O(logn)时间.除非平衡,否则BST可能具有O(n)运算.堆积比平衡BST更容易实施.
如果您需要在创建堆后修改值,则只需应用接收器或游泳操作即可.修改BST中的值在概念上更加困难.

sorting heap binary-tree heapsort binary-search-tree

Shu*_*wag

2017 12-26

7
推荐指数

2
解决办法

512
查看次数

Docker无法安装numpy，scipy或gensim

我正在尝试构建一个使用Python的gensim库2.1.0版的Docker应用程序，该库是通过pip从requirements.txt文件安装的。

但是，Docker似乎在安装numpy，scipy和gensim时遇到问题。我搜索了错误消息，并找到了在其他环境中遇到相同问题的其他用户。他们的许多解决方案似乎在Docker中不起作用。

以下是错误消息：

<pre> Step 4 : RUN pip install -r requirements.txt
 ---> Running in a86d07e229d7
Collecting Flask==0.12 (from -r requirements.txt (line 1))
  Downloading Flask-0.12-py2.py3-none-any.whl (82kB)
Collecting requests==2.17.3 (from -r requirements.txt (line 2))
  Downloading requests-2.17.3-py2.py3-none-any.whl (87kB)
Collecting numpy==1.12.1 (from -r requirements.txt (line 3))
  Downloading numpy-1.12.1.zip (4.8MB)
Collecting nltk==3.2.2 (from -r requirements.txt (line 4))
  Downloading nltk-3.2.2.tar.gz (1.2MB)
Collecting scipy==0.19.0 (from -r requirements.txt (line 5))
  Downloading scipy-0.19.0.zip (15.3MB)
    Complete output from command python setup.py egg_info:
    /bin/sh: svnversion: not found
    /bin/sh: svnversion: not …

Run Code Online (Sandbox Code Playgroud)

python numpy scipy gensim docker

Shu*_*wag

lucky-day

5
推荐指数

1
解决办法

4891
查看次数

“有状态”和“无状态”系统有什么区别？

Apache Spark吹嘘其运营商（节点）是“无状态的”。这允许 Spark 的架构使用更简单的协议来处理诸如恢复、负载平衡和处理落后者之类的事情。

另一方面，Apache Flink将其运算符描述为“有状态的”，并声称有状态对于机器学习等应用程序是必要的。然而，Spark 程序能够在不维护“状态”的情况下传递信息并在 RDD 中维护应用程序数据。

这里发生了什么？Spark 不是真正的无状态系统吗？或者 Flink 断言状态性对于机器学习和类似应用程序至关重要？还是这里有一些额外的细微差别？

我觉得我并没有真正理解“有状态”和“无状态”系统之间的区别，如果能解释一下，我将不胜感激。

streaming state apache-spark spark-streaming apache-flink

Shu*_*wag

2018 03-04

5
推荐指数

1
解决办法

3011
查看次数

为什么Cloud Foundry下载所有buildpack？

当我部署Cloud Foundry应用程序时，它会安装针对ruby，php，javascript，python，java，go等的构建包。

为什么这样做呢？我的项目仅使用Java，因此我假设Cloud Foundry为任何项目下载了所有buildpack，而与要部署的文件无关？

cloud-foundry

Shu*_*wag

lucky-day

4
推荐指数

1
解决办法

528
查看次数

迭代地将新列添加到数据框列表中

我正在尝试编写一些迭代数据帧列表的代码，向每个数据帧添加一个新列，该新列包含与旧列相同的值，但移动了 1。该列中的第一个值将为 NA。下面是我的代码：

for(dataframe in 1:length(listOfDataFrames)){
    newColumn <- c(NA)
    for(row in 1:(nrow(listOfDataFrames[[dataframe]]) - 1)){
        newColumn <- append(newColumn, listOfDataFrames[[dataframe]]$oldColumn[row])
    }
    mutate(listOfDataFrames[[i]], newColumn = newColumn)
}

Run Code Online (Sandbox Code Playgroud)

但是，当我在 R 中执行此代码时，我在第一个数据帧上收到错误：