我有一个数据帧DF.
说DF是:
A B
1 1 2
2 1 3
3 2 3
4 3 5
5 3 6
Run Code Online (Sandbox Code Playgroud)
现在我想通过列A将行组合在一起并得到列B的总和.
例如:
A B
1 1 5
2 2 3
3 3 11
Run Code Online (Sandbox Code Playgroud)
我目前正在使用sqldf函数的SQL查询.但由于某种原因,它非常缓慢.有没有更方便的方法呢?我也可以使用for循环手动完成,但它又慢了.我的SQL查询是"从A组中选择A,计数(B)".
通常,每当我不使用矢量化操作并使用for循环时,即使对于单个过程,性能也非常慢.
我有一些zip非常大的文件,我想打印它们而不先提取.我正在使用zcat并zless执行此操作,然后将输出重定向到其他应用程序.当我的zip文件包含多个文本文件时,我收到以下错误:
zcat tweets.zip >a
gzip: tweets.zip has more than one entry--rest ignored
Run Code Online (Sandbox Code Playgroud)
如何使用zip包含多个文本文件的文件执行我想要的操作?
我想使用Locality敏感哈希来大致匹配字符串.我有很多字符串> 10M可能包含错别字.对于每个String,我想与所有其他字符串进行比较,并根据某个阈值选择具有编辑距离的字符串.
也就是说,天真的解决方案需要O(n ^ 2)个比较.为了避免这个问题,我正在考虑使用Locality Sensitive Hashing.然后接近相似的字符串会产生相同的桶,我只需要在桶搜索中进行.所以它是O(n*C),其中C是桶大小.
但是,我不明白如何表示字符串.如果是文本,我将在向量空间中表示.我的主要问题是,如果使用LSH这是易处理的,然后是字符串的适当矢量表示.
我可以使用已经实现的库来执行此任务吗?或者这取决于我的问题,所以我必须自己实施?是否有任何python包执行此操作?
我愿意使用数据结构作为常量空间的溢出缓冲区.我希望有效插入,但最重要的是有效去除min元素.我正在考虑使用堆,因为我有O(log(n))find_min()和log(n)插入和删除.另一方面,我知道不了解与红黑树相比的优势,因为它也有O(log(n))插入和删除但O(1)找到最小/最大.并排序输出的优势(我不关心).
问题与:红黑树是我理想的数据结构吗?
由于我从std :: map和boost :: heap可以获得这两个结构,为什么我更喜欢使用堆而不是红黑树呢?最后,使用红黑树我也有一个条目的O(log(n))搜索时间,而对于一个堆,时间是O(n),这是重要的,因为存在重复.
我试图使用hadoop实现一个处理文本文件的应用程序,问题是我无法保持输入文本的顺序,是否有任何方法可以选择哈希函数?通过分配输入的分区可以轻松解决此问题到每个映射器,然后将分区发送给reducer.hadoop是否可能?
我有一个非常简单的 bash 脚本。我希望这个 bash 脚本在我从终端注销后继续运行,因为它正在监视一些服务。但是,我遇到的问题是,一旦我退出终端,进程就会终止。
我运行这个过程:
nohup ./test.sh > test.log &
Run Code Online (Sandbox Code Playgroud)
我使用以下方法检查过程:
ps -aux | grep test.sh
Run Code Online (Sandbox Code Playgroud)
当我运行该进程时,我会检查脚本是否正在运行。但是,当我重新连接时,脚本不再运行。
test.sh文件内容如下:
#!/bin/bash
while :
do
echo `date`": ****** Scheduled Test *****"
result1=$(wget "127.0.0.1" -q -O -)
result2=$(wget "127.0.0.1" -q -O -)
echo ": $result1"
echo ": $result2"
if [[ $result1 == *"Running OK"* ]] && [[ $result2 == *"Running OK"* ]];
then
echo "***** Running OK ***** :)"
sleep 60
continue
fi
echo "@@@@@ Not Running @@@@@"
echo "-----> Killing JARS"
kill …Run Code Online (Sandbox Code Playgroud) 我一直在使用net beans ide开发一个项目6个月,以便开发一个电子学习web应用程序.所有东西在net beans中运行良好.(该项目来自现有的资源,我不得不修改它,我没有开发整个应用程序我在net beans中使用apache tomcat 7.当我创建war文件并部署它没什么工作.我在我的会话变量中得到空指针异常,就像我从来没有给它们一个值.我无法理解是什么问题.Iinside net beans我使用相同的tomcat.
org.apache.jasper.JasperException: An exception occurred processing JSP page /System.jsp at line 31
28: Integer intObj = new Integer(project_id);
29: httpsession.setAttribute("project_id",intObj);
30: Hashtable projects=(Hashtable)session.getAttribute("projectsprofessor");
31: if((Integer)session.getAttribute("professor")<=1 &&
32: projects.get(project_id)==null)
33: {
34: request.getSession().setAttribute("errorMessage","This project belongs to another professor!");
Stacktrace:
org.apache.jasper.servlet.JspServletWrapper.handleJspException(JspServletWrapper.java:553)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:457)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:390)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:333)
javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
root cause
java.lang.NullPointerException
org.apache.jsp.System_jsp._jspService(System_jsp.java:149)
org.apache.jasper.runtime.HttpJspBase.service(HttpJspBase.java:70)
javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:419)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:390)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:333)
javax.servlet.http.HttpServlet.service(HttpServlet.java:722)
Run Code Online (Sandbox Code Playgroud)
在我的大多数页面都会发生这种情况.奇怪的是,某些会话变量不为空.我无法理解在哪里集中注意力!
谢谢.
//编辑:解决了!问题是,在我得到的来源中,他们忘记了WEB-INF文件夹中的*.class文件,所以当我在NetBeans中清理和构建时,新类没有编译,而net bean使用了以前的来自WEB-INF文件夹的源.当我手动删除WEB-INF/Classes中的所有.class文件时,在下一个clean-build中使用了新文件
我有一个图表,我想实现对 Page Rank 算法的修改。我坚持以下几点。我不知道如何从一个节点获取所有相邻的顶点。
目前我正在使用以下方法接收边缘列表:
g.incident("a", mode="out")
Run Code Online (Sandbox Code Playgroud)
这将返回边缘索引列表。
我怎样才能从中获得顶点名称?
例如,我需要知道“a”链接到“b”和“d”
我有一个类似于这的java代码:
AnObject anObject = new AnObject() {
int count;
public int creation() {
return count;
}
};
Run Code Online (Sandbox Code Playgroud)
我无法理解括号的含义.构造函数后面的类?谢谢!