小编gra*_*per的帖子

如何在ipython中清除变量?

有时我会在同一个ipython会话中重新运行一个脚本,当变量尚未清除时,我会收到很多惊喜.如何清除所有变量?每当我调用魔术命令%run时,是否有可能以某种方式强制执行此操作?

谢谢

python memory ipython

122
推荐指数
7
解决办法
22万
查看次数

facebook如何存储用户的朋友?

我想知道具有id x的用户与具有ids z,y,w的用户的朋友的信息究竟是如何存储在像facebook这样的非常大规模的应用中.

我在考虑几种可能性

a)有一张表将友谊与所涉及的人员的ID作为外键映射,如下所示:

人| isFriendsWith

x ------------------- y

x ------------------ z

x ------------------- w

在我看来它根本不会很好地扩展.

b)在用户行中有一个字段,用一种序列化格式存储朋友的ID,如字符串"#z#y #w".我想用正确的算法解析和更新这个字符串会很容易.

c)与每个用户的朋友分开一张桌子.这会对服务器造成太大负担吗?

d)还有别的吗?

所以,如果有人知道facebook做了什么并且可以分享细节,那将是值得赞赏的,这就是问题所在.此外,如果有人可以分享洞察力,为什么我在这里列出的内容不能很好地扩展或者在性能方面会有其他问题,我有兴趣听到它.

谢谢

mysql facebook foreign-keys

7
推荐指数
1
解决办法
2733
查看次数

使用Python和Pandas编写Apache Storm Spouts和Bolts

我想将现有的基于python的实现(事件流上的数据分析工具)转换为风暴拓扑.

在研究阶段,我和我的团队使用python pandas来开发我们工具的原型,并发现它在程序员生产力方面非常有用.现在我们想要创建一个风暴拓扑,它做同样的事情,并且旨在重用我们现有的python模块作为螺栓,或者至少做出明智的决定,这是否是一个好主意.

使用python脚本取决于外部库作为集群上的Storm Bolt的任何限制?另外,对于我们的螺栓使用解释性和非JVM语言(如Python而不是Java)的性能损失是否有任何人感觉?大熊猫图书馆本身的设计考虑了高性能.

谢谢

python pandas apache-storm

6
推荐指数
0
解决办法
1077
查看次数

需要帮助调试GWT - Jetty'未知领域'

我正在尝试调试GWT应用程序,但似乎我不能用jetty来做.每当我尝试在托管模式下运行它进行调试时,我都会得到一个'unknown realm'500错误消息(没有任何加载).我是通过eclipse做的.之后必须编译所有要在浏览器中调试的内容非常不方便.

编译之后,我将war部署到JBoss中(在服务器上使用EJB).但编译需要时间,当代码变成javascript时,你无法真正调试.我该如何调试java代码?我正在研究-noserver选项,但我想知道我是否还可以用jetty来做.如果没有,为什么不呢.

gwt jboss jetty gwt-rpc gwt-hosted-mode

5
推荐指数
1
解决办法
2511
查看次数

子类化Avro记录?

我有两种类型的AvroRecords,它们都扩展了avro.SpecificRecord.有没有办法让一个人成为另一个Java的子类?其中一个是PersonRecord,我希望它的子类是EmployeeRecord.我不想用avro数据填充普通Java类的原因是我使用hadoop并且如果可能的话希望直接使用avro文件.

为了澄清,我感兴趣的是多态性.我希望能够使用一个函数,将PersonRecord作为参数与EmployeeRecord.

谢谢!

oop serialization hadoop avro

5
推荐指数
1
解决办法
3913
查看次数

将csv文件拆分为多个部分,复制标题

我想快速将csv文件拆分成N个大致相等的部分,并使每个部分都将原始标题作为第一行.到目前为止,我已经提出了这个,它有效(N = 5):

split -da 4 -l $((`wc -l < foo.csv`/5)) foo.csv foo --additional-suffix=".csv"
for f in `ls foo0*.csv`;do sed -i "1s/^/`head -n 1 foo.csv`\n/" $f; done;
Run Code Online (Sandbox Code Playgroud)

有没有人知道如何把它变成一个单行,我通过拆分到for循环而不是运行ls命令来提供新创建的文件.

谢谢!

bash split sed

1
推荐指数
1
解决办法
1717
查看次数

熊猫 - 重新取样和标准偏差

我有这个数据帧:

startTime     endTime  emails_received
index                                             
2014-01-24 14:00:00  1390568400  1390569600    684
2014-01-24 14:00:00  1390568400  1390569300    700
2014-01-24 14:05:00  1390568700  1390569300    438
2014-01-24 14:05:00  1390568700  1390569900    586
2014-01-24 16:00:00  1390575600  1390576500    752
2014-01-24 16:00:00  1390575600  1390576500    743
2014-01-24 16:00:00  1390575600  1390576500    672
2014-01-24 16:00:00  1390575600  1390576200    712
2014-01-24 16:00:00  1390575600  1390576800    708
Run Code Online (Sandbox Code Playgroud)

我运行resample("10min",how ="median").dropna()然后我得到:

                  startTime     endTime  emails_received
start                                             
2014-01-24 14:00:00  1390568550  1390569450    635
2014-01-24 16:00:00  1390575600  1390576500    712
Run Code Online (Sandbox Code Playgroud)

哪个是对的.有没有什么方法可以通过熊猫轻松获得平均值的标准偏差?

python time-series resampling pandas

0
推荐指数
1
解决办法
1万
查看次数

多个fatJars的摇篮

我有一个gradle构建脚本,如下所示:

dependencies {
  compile project(':common:avro')
  ....

fatJar {
  manifest {
    attributes 'Main-Class': 'package.subpackage.MainClass'
  }
}
Run Code Online (Sandbox Code Playgroud)

我希望能够从命令行中选择要使用的MainClass,还可以选择生成的fat.jar名称。这可能吗?

java jar gradle

0
推荐指数
1
解决办法
134
查看次数