小编nik*_*sdi的帖子

data.frame Group By列

我有一个数据帧DF.

说DF是:

  A B
1 1 2
2 1 3
3 2 3
4 3 5
5 3 6 
Run Code Online (Sandbox Code Playgroud)

现在我想通过列A将行组合在一起并得到列B的总和.

例如:

  A B
1 1 5
2 2 3
3 3 11
Run Code Online (Sandbox Code Playgroud)

我目前正在使用sqldf函数的SQL查询.但由于某种原因,它非常缓慢.有没有更方便的方法呢?我也可以使用for循环手动完成,但它又慢了.我的SQL查询是"从A组中选择A,计数(B)".

通常,每当我不使用矢量化操作并使用for循环时,即使对于单个过程,性能也非常慢.

aggregate r

60
推荐指数
3
解决办法
16万
查看次数

在zip存档中打印多个文件的内容

我有一些zip非常大的文件,我想打印它们而不先提取.我正在使用zcatzless执行此操作,然后将输出重定向到其他应用程序.当我的zip文件包含多个文本文件时,我收到以下错误:

zcat tweets.zip >a
gzip: tweets.zip has more than one entry--rest ignored
Run Code Online (Sandbox Code Playgroud)

如何使用zip包含多个文本文件的文件执行我想要的操作?

linux compression zip unzip

20
推荐指数
2
解决办法
2万
查看次数

使用LSH进行近似字符串匹配

我想使用Locality敏感哈希来大致匹配字符串.我有很多字符串> 10M可能包含错别字.对于每个String,我想与所有其他字符串进行比较,并根据某个阈值选择具有编辑距离的字符串.

也就是说,天真的解决方案需要O(n ^ 2)个比较.为了避免这个问题,我正在考虑使用Locality Sensitive Hashing.然后接近相似的字符串会产生相同的桶,我只需要在桶搜索中进行.所以它是O(n*C),其中C是桶大小.

但是,我不明白如何表示字符串.如果是文本,我将在向量空间中表示.我的主要问题是,如果使用LSH这是易处理的,然后是字符串的适当矢量表示.

我可以使用已经实现的库来执行此任务吗?或者这取决于我的问题,所以我必须自己实施?是否有任何python包执行此操作?

python string hash locality-sensitive-hash

11
推荐指数
1
解决办法
5681
查看次数

堆或红黑树?

我愿意使用数据结构作为常量空间的溢出缓冲区.我希望有效插入,但最重要的是有效去除min元素.我正在考虑使用堆,因为我有O(log(n))find_min()和log(n)插入和删除.另一方面,我知道不了解与红黑树相比的优势,因为它也有O(log(n))插入和删除但O(1)找到最小/最大.并排序输出的优势(我不关心).

问题与:红黑树是我理想的数据结构吗?

由于我从std :: map和boost :: heap可以获得这两个结构,为什么我更喜欢使用堆而不是红黑树呢?最后,使用红黑树我也有一个条目的O(log(n))搜索时间,而对于一个堆,时间是O(n),这是重要的,因为存在重复.

c++ algorithm red-black-tree binary-heap data-structures

10
推荐指数
2
解决办法
3096
查看次数

Java的Counter Counter替代品

我一直在使用Python中的Counter()数据结构作为键值存储,允许我使用most_common方法根据其值对对象进行排序.更多信息在这里.

Java语言是否有类似的数据结构?例如,我已经看到许多相关的答案专注于通过数据结构对HashMapsTreeMaps进行排序,最初并未为此目的定义.在我的情况下,我通常需要保留对象的计数器,然后选择最常见的或具有最高分数的那些(前N个查询).但是,我很难,因为我需要插入HashMap然后排序或使用多个数据结构.

python java sorting data-structures

9
推荐指数
2
解决办法
2548
查看次数

Map Reduce保持输入顺序

我试图使用hadoop实现一个处理文本文件的应用程序,问题是我无法保持输入文本的顺序,是否有任何方法可以选择哈希函数?通过分配输入的分区可以轻松解决此问题到每个映射器,然后将分区发送给reducer.hadoop是否可能?

hadoop mapreduce

5
推荐指数
1
解决办法
2508
查看次数

nohup 无法正常工作

我有一个非常简单的 bash 脚本。我希望这个 bash 脚本在我从终端注销后继续运行,因为它正在监视一些服务。但是,我遇到的问题是,一旦我退出终端,进程就会终止。

我运行这个过程:

nohup ./test.sh > test.log & 
Run Code Online (Sandbox Code Playgroud)

我使用以下方法检查过程:

 ps -aux | grep test.sh
Run Code Online (Sandbox Code Playgroud)

当我运行该进程时,我会检查脚本是否正在运行。但是,当我重新连接时,脚本不再运行。

test.sh文件内容如下:

#!/bin/bash
while :
do
        echo `date`": ****** Scheduled Test *****"
        result1=$(wget "127.0.0.1" -q -O -)
        result2=$(wget "127.0.0.1" -q -O -)
        echo ": $result1"
        echo ": $result2"
        if [[ $result1 == *"Running OK"* ]] && [[ $result2 == *"Running OK"* ]];
        then
                echo "***** Running OK ***** :)"
                sleep 60
                continue
        fi
        echo "@@@@@ Not Running @@@@@"
        echo "-----> Killing JARS"
        kill …
Run Code Online (Sandbox Code Playgroud)

unix linux bash nohup

5
推荐指数
1
解决办法
1万
查看次数

访问会话属性时Tomcat和空指针异常

我一直在使用net beans ide开发一个项目6个月,以便开发一个电子学习web应用程序.所有东西在net beans中运行良好.(该项目来自现有的资源,我不得不修改它,我没有开发整个应用程序我在net beans中使用apache tomcat 7.当我创建war文件并部署它没什么工作.我在我的会话变量中得到空指针异常,就像我从来没有给它们一个值.我无法理解是什么问题.Iinside net beans我使用相同的tomcat.

    org.apache.jasper.JasperException: An exception occurred processing JSP page /System.jsp at line 31

28:       Integer intObj = new Integer(project_id);
29:       httpsession.setAttribute("project_id",intObj);
30:       Hashtable projects=(Hashtable)session.getAttribute("projectsprofessor");
31:       if((Integer)session.getAttribute("professor")<=1 &&
32:           projects.get(project_id)==null)
33:                    {
34:           request.getSession().setAttribute("errorMessage","This project belongs to another professor!");


Stacktrace:
    org.apache.jasper.servlet.JspServletWrapper.handleJspException(JspServletWrapper.java:553)
    org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:457)
    org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:390)
    org.apache.jasper.servlet.JspServlet.service(JspServlet.java:333)
    javax.servlet.http.HttpServlet.service(HttpServlet.java:722)

root cause

java.lang.NullPointerException
    org.apache.jsp.System_jsp._jspService(System_jsp.java:149)
    org.apache.jasper.runtime.HttpJspBase.service(HttpJspBase.java:70)
    javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
    org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:419)
    org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:390)
    org.apache.jasper.servlet.JspServlet.service(JspServlet.java:333)
    javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
Run Code Online (Sandbox Code Playgroud)

在我的大多数页面都会发生这种情况.奇怪的是,某些会话变量不为空.我无法理解在哪里集中注意力!

谢谢.

//编辑:解决了!问题是,在我得到的来源中,他们忘记了WEB-INF文件夹中的*.class文件,所以当我在NetBeans中清理和构建时,新类没有编译,而net bean使用了以前的来自WEB-INF文件夹的源.当我手动删除WEB-INF/Classes中的所有.class文件时,在下一个clean-build中使用了新文件

java apache jsp tomcat netbeans

3
推荐指数
1
解决办法
1万
查看次数

IGraph python 从顶点获取邻居顶点

我有一个图表,我想实现对 Page Rank 算法的修改。我坚持以下几点。我不知道如何从一个节点获取所有相邻的顶点。

目前我正在使用以下方法接收边缘列表:

g.incident("a", mode="out")
Run Code Online (Sandbox Code Playgroud)

这将返回边缘索引列表。

我怎样才能从中获得顶点名称?

例如,我需要知道“a”链接到“b”和“d”

python graph igraph

3
推荐指数
1
解决办法
3640
查看次数

java括号用法

我有一个类似于这的java代码:

AnObject anObject = new AnObject() {
    int count;
    public int creation() {
        return count;
    }
};
Run Code Online (Sandbox Code Playgroud)

我无法理解括号的含义.构造函数后面的类?谢谢!

java

2
推荐指数
1
解决办法
173
查看次数