假设我想从多个来源(可能是旅行,技术或其他)汇总与特定利基相关的信息.我该怎么办?
有一个蜘蛛/爬虫将抓取网页以查找我需要的信息(我如何告诉抓取工具爬什么,因为我不想获得整个网络?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?
像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗?你还推荐别的吗?
或者你能推荐另一种方法吗?
例如,Techmeme.com是如何构建的?(它是技术新闻的聚合器,它完全自动化 - 直到最近他们还增加了一些人为干预).建立这样的服务需要什么?
或者Kayak.com如何汇总他们的数据?(这是旅行聚合服务.)
给定以下结果集:
---------------------------------------------------------
CustomerID Service TransType SubTotal Tax NetTotal
---------------------------------------------------------
106 A CREDIT 12.52 - 12.52
106 A CREDIT 10.07 - 10.07
106 B CREDIT 2.00 - 2.00
106 C REMOTE 5.99 - 5.99
106 C CREDIT 5.99 - 5.99
106 C CREDIT 3.99 0.30 3.69
106 C CREDIT 5.99 0.30 5.69
106 D CREDIT 5.99 - 5.99
---------------------------------------------------------
Run Code Online (Sandbox Code Playgroud)
请注意,NetTotal = SubTotal - Tax
请帮我计算总和(SubTotal),sum(Tax)和sum(NetTotal)以及pivotped TransType,如下所示:
--------------------------------------------------------------------------
CustomerID Service Cash Check Credit Remote SubTotal Tax NetTotal
--------------------------------------------------------------------------
106 A 0 0 …Run Code Online (Sandbox Code Playgroud) 我是Maven的新手,我刚刚尝试建立我的第一个项目树.我很难理解两种选择之间的区别:
我有jar和war项目(每个两个)我想捆绑.传统上我只是创建一个耳朵项目,其中所有四个都是依赖项.
现在我读到了poms的聚合,我不知道该怎么做(参见http://maven.apache.org/pom.html#Aggregation).我应该用这四个项目创建一个聚合的POM吗?
我想基本上我的问题是:如果依赖项是我自己的"项目"之一,那么模块和依赖项之间的最大区别是什么.
假设我有以下情况:
B---D---F---G topic
/ /
--A---C---E master
Run Code Online (Sandbox Code Playgroud)
对于代码审查的目的,我想拔出DIFF从犯犯G,但不包括提交E和C即发生在主分支,也包括不提交F,可以合并提交.
换句话说,我想生成一个包含从F到G的变化的差异,并将这些变化与A到D的变化进行汇总.
换句话说,我希望审阅差异仅包含我对主题分支的更改,而不包括同时发生的大量代码.
这可能吗?如果git无法处理这样的"差异聚合",我会非常感谢有人可以提供一些关于外部命令如何做到这一点的指针(这样我就可以尝试编写一个bash脚本来完成这个技巧).
我想通过top_hit的doc.score订购存储桶.我目前的实施情况如下.
group_by_iid: {
terms: {
field: 'iid',
order: { max_score: 'desc' },
size: 0
},
aggs: {
max_score: { max: { script: 'doc.score' } },
top_hit: {
top_hits: {
sort: [{ source_priority: { order: 'desc' } }],
size: 1
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
这是错误的,因为存储桶按其最高分排序,而不是按其最高source_priority文档的分数排序.有没有办法解决这个问题?
我有一组280万个文档,其中包含我使用ElasticSearch查询的标记集,但其中许多文档可以通过一个ID组合在一起.我想使用标签查询我的数据,然后通过重复的ID聚合它们.我的搜索结果通常有成千上万的文档,但我只想汇总前100个搜索结果.如何将聚合仅限制为查询的前100个结果?
我刚刚向ElasticSearch介绍了重要的术语聚合,并且对这个度量标准的优秀和相关程度感到非常惊讶.对于那些不熟悉它的人来说,这是一个非常简单的概念 - 对于给定的查询(前景集),给定的属性根据背景集的统计显着性进行评分.
例如,如果我们要查询英国交通警察中最重要的犯罪类型:
C = 5,064,554 -- total number of crimes
T = 66,799 -- total number of bicycle thefts
S = 47,347 -- total number of crimes in British Transport Police
I = 3,640 -- total number of bicycle thefts in British Transport Police
Run Code Online (Sandbox Code Playgroud)
通常,自行车盗窃仅占犯罪的1%(66,799/5,064,554),但对于处理铁路和车站犯罪的英国交通警察来说,7%的犯罪(3,640/47,347)是自行车盗窃.频率增加了7倍.
"自行车盗窃"的意义在于 [(I/S) - (T/C)] * [(I/S) / (T/C)] = 0.371...
哪里:
由于实际原因(我拥有大量的数据和巨大的ElasticSearch内存要求),我希望在SQL中或直接在代码中实现重要的术语聚合.
我一直在寻找一些方法来潜在地优化这种查询,特别是降低内存需求和提高查询速度,但代价是一些错误余量 - 但到目前为止我还没有破解它.在我看来,这:
sql query-optimization aggregation elasticsearch significant-terms
我想知道每个人在他们的系统上使用什么来记录日志管理和日志聚合.
我在一家公司工作,该公司为所有应用程序使用.NET,所有系统都是基于Windows的.目前,每个应用程序都会查看自己的日志记录和失败通知(例如,如果应用程序A失败,它将向管理员发送自己的'求助电话').
虽然这种现行做法有点笨拙且难以管理.我一直试图找到一些方法来使这项工作更好,我想出了以下内容:
基本上我们所追求的是能够将日志条目全部拉到一起并允许在它们之间运行某些分析的东西,并且使用一种基于事件的系统,例如,当有30多个警告时发出警告电子邮件最近x几分钟内应用程序的级别日志.
那么我有什么遗漏,或其他人可以建议的东西?
介绍:
我在一家承包商公司工作.我们为不同的企业客户制作SW,每个客户都有自己的规则,SW标准等.
问题:
结果是,我们正在使用几个错误跟踪系统.门票流量相对较大,SLA有时是致命的.主要问题是,我们在自己的BT(目前是Mantis)中跟踪这些门票,但我们也在与他们的BT客户沟通.但事实上,两个通信渠道正在制造太多的信息噪音.
解决方案,进展:
实际解决方案是负责同步流并跟踪SLA和许多其他事情的员工.它消耗了相当大一部分时间(cca 70%)可以花在更有价值的东西上.另一件事是,他不够快,有时同步并没有真正同步.注释的某些部分仅留在一个系统上,有些部分完全丢失.(不要在假期或疾病时开始我,这就是乐趣开始的地方)
题:
如何自动化这个过程:聚合任务,观看SLA,部分或全部通知合适的人等?
谢谢您的回答.
我有一个这样的Pandas数据框:
test = pd.DataFrame({ 'Date' : ['2016-04-01','2016-04-01','2016-04-02',
'2016-04-02','2016-04-03','2016-04-04',
'2016-04-05','2016-04-06','2016-04-06'],
'User' : ['Mike','John','Mike','John','Mike','Mike',
'Mike','Mike','John'],
'Value' : [1,2,1,3,4.5,1,2,3,6]
})
Run Code Online (Sandbox Code Playgroud)
如下所示,数据集不一定每天都有观察结果:
Date User Value
0 2016-04-01 Mike 1.0
1 2016-04-01 John 2.0
2 2016-04-02 Mike 1.0
3 2016-04-02 John 3.0
4 2016-04-03 Mike 4.5
5 2016-04-04 Mike 1.0
6 2016-04-05 Mike 2.0
7 2016-04-06 Mike 3.0
8 2016-04-06 John 6.0
Run Code Online (Sandbox Code Playgroud)
我想添加一个新列,显示过去n天内每个用户的平均值(在这种情况下n = 2),如果至少有一天可用,否则它会nan有价值.例如,2016-04-06约翰得到一个nan因为他没有2016-04-05和的数据2016-04-04.所以结果将是这样的:
Date User Value Value_Average_Past_2_days
0 2016-04-01 Mike 1.0 …Run Code Online (Sandbox Code Playgroud) aggregation ×10
bug-tracker ×1
dependencies ×1
diff ×1
git ×1
git-merge ×1
java ×1
logging ×1
maven-2 ×1
nutch ×1
pandas ×1
pivot ×1
process ×1
python ×1
search ×1
sql ×1
sql-server ×1
t-sql ×1
time-series ×1
web-crawler ×1
web-services ×1
workflow ×1