我想知道每个人在他们的系统上使用什么来记录日志管理和日志聚合.
我在一家公司工作,该公司为所有应用程序使用.NET,所有系统都是基于Windows的.目前,每个应用程序都会查看自己的日志记录和失败通知(例如,如果应用程序A失败,它将向管理员发送自己的'求助电话').
虽然这种现行做法有点笨拙且难以管理.我一直试图找到一些方法来使这项工作更好,我想出了以下内容:
基本上我们所追求的是能够将日志条目全部拉到一起并允许在它们之间运行某些分析的东西,并且使用一种基于事件的系统,例如,当有30多个警告时发出警告电子邮件最近x几分钟内应用程序的级别日志.
那么我有什么遗漏,或其他人可以建议的东西?
我的聚合需求因列/ data.frames而异.我想动态地将"list"参数传递给data.table.
作为一个最小的例子:
require(data.table)
type <- c(rep("hello", 3), rep("bye", 3), rep("ok",3))
a <- (rep(1:3, 3))
b <- runif(9)
c <- runif(9)
df <- data.frame(cbind(type, a, b, c), stringsAsFactors=F)
DT <-data.table(df)
Run Code Online (Sandbox Code Playgroud)
这个电话:
DT[, list(suma = sum(as.numeric(a)), meanb = mean(as.numeric(b)), minc = min(as.numeric(c))), by= type]
Run Code Online (Sandbox Code Playgroud)
会有类似的结果:
type suma meanb minc
1: hello 6 0.1332210 0.4265579
2: bye 6 0.5680839 0.2993667
3: ok 6 0.5694532 0.2069026
Run Code Online (Sandbox Code Playgroud)
未来的data.frames将有更多的列,我想要以不同的方式进行总结.但是为了使用这个小例子:有没有办法以编程方式传递列表?
我天真地尝试过:
# create a different list
mylist <- "list(lengtha = length(as.numeric(a)), maxb = max(as.numeric(b)), meanc = …Run Code Online (Sandbox Code Playgroud) 使用Nodeclipse Eclipse插件的maven/tycho构建,每个版本都有新的p2存储库.
发布在Bintray上完成,不允许更新文件.所以每个版本都在其文件夹中.
BaseFolder
BaseFolder/VersionFolder1
BaseFolder/VersionFolder2
BaseFolder/VersionFolder3
Run Code Online (Sandbox Code Playgroud)
是否可以BaseFolder准备一次作为可扩展的p2存储库,并VersionFolderN在以后添加?
因此,只有一个用于更新的URL,Eclipse平台可以发现存储库中的更新.
我遇到了一个问题,即弹性搜索无法通过在嵌套字段上使用术语聚合来返回唯一文档的数量.
这是我们模型的一个例子:
{
...,
"location" : [
{"city" : "new york", "state" : "ny"},
{"city" : "woodbury", "state" : "ny"},
...
],
...
}
Run Code Online (Sandbox Code Playgroud)
我想在状态字段上进行聚合,但是这个文档将在'ny'桶中计数两次,因为'ny'在文档中出现两次.
所以我想知道在哪里可以获取不同文档的数量.
制图:
people = {
:properties => {
:location => {
:type => 'nested',
:properties => {
:city => {
:type => 'string',
:index => 'not_analyzed',
},
:state => {
:type => 'string',
:index => 'not_analyzed',
},
}
},
:last_name => {
:type => 'string',
:index => 'not_analyzed'
}
}
}
Run Code Online (Sandbox Code Playgroud)
查询非常简单:
curl -XGET 'http://localhost:9200/people/_search?pretty&search_type=count' …Run Code Online (Sandbox Code Playgroud) 介绍:
我在一家承包商公司工作.我们为不同的企业客户制作SW,每个客户都有自己的规则,SW标准等.
问题:
结果是,我们正在使用几个错误跟踪系统.门票流量相对较大,SLA有时是致命的.主要问题是,我们在自己的BT(目前是Mantis)中跟踪这些门票,但我们也在与他们的BT客户沟通.但事实上,两个通信渠道正在制造太多的信息噪音.
解决方案,进展:
实际解决方案是负责同步流并跟踪SLA和许多其他事情的员工.它消耗了相当大一部分时间(cca 70%)可以花在更有价值的东西上.另一件事是,他不够快,有时同步并没有真正同步.注释的某些部分仅留在一个系统上,有些部分完全丢失.(不要在假期或疾病时开始我,这就是乐趣开始的地方)
题:
如何自动化这个过程:聚合任务,观看SLA,部分或全部通知合适的人等?
谢谢您的回答.
我有一个这样的Pandas数据框:
test = pd.DataFrame({ 'Date' : ['2016-04-01','2016-04-01','2016-04-02',
'2016-04-02','2016-04-03','2016-04-04',
'2016-04-05','2016-04-06','2016-04-06'],
'User' : ['Mike','John','Mike','John','Mike','Mike',
'Mike','Mike','John'],
'Value' : [1,2,1,3,4.5,1,2,3,6]
})
Run Code Online (Sandbox Code Playgroud)
如下所示,数据集不一定每天都有观察结果:
Date User Value
0 2016-04-01 Mike 1.0
1 2016-04-01 John 2.0
2 2016-04-02 Mike 1.0
3 2016-04-02 John 3.0
4 2016-04-03 Mike 4.5
5 2016-04-04 Mike 1.0
6 2016-04-05 Mike 2.0
7 2016-04-06 Mike 3.0
8 2016-04-06 John 6.0
Run Code Online (Sandbox Code Playgroud)
我想添加一个新列,显示过去n天内每个用户的平均值(在这种情况下n = 2),如果至少有一天可用,否则它会nan有价值.例如,2016-04-06约翰得到一个nan因为他没有2016-04-05和的数据2016-04-04.所以结果将是这样的:
Date User Value Value_Average_Past_2_days
0 2016-04-01 Mike 1.0 …Run Code Online (Sandbox Code Playgroud) 我正在尝试向现有联系人添加新的RawContact,以便我的自定义数据字段显示在原始联系人中.我尝试将StructuredName数据行添加到我的新RawContact,其DisplayName与原始RawContact的DisplayName相匹配.我认为匹配的DisplayNames足以聚合两个RawContacts但联系人应用程序似乎将RawContacts显示为不同的联系人.
这是我的代码
public static void addContact(Context context, Account account, String number, String displayname) {
Log.e(Global.TAG, "adding contact: " + number + " / " + displayname);
ArrayList<ContentProviderOperation> operationList = new ArrayList<ContentProviderOperation>();
//Create our RawContact
ContentProviderOperation.Builder builder = ContentProviderOperation.newInsert(RawContacts.CONTENT_URI);
builder.withValue(RawContacts.ACCOUNT_NAME, account.name);
builder.withValue(RawContacts.ACCOUNT_TYPE, account.type);
operationList.add(builder.build());
//Create a Data record of common type 'StructuredName' for our RawContact
builder = ContentProviderOperation.newInsert(ContactsContract.Data.CONTENT_URI);
builder.withValueBackReference(ContactsContract.CommonDataKinds.StructuredName.RAW_CONTACT_ID, 0);
builder.withValue(ContactsContract.Data.MIMETYPE, ContactsContract.CommonDataKinds.StructuredName.CONTENT_ITEM_TYPE);
builder.withValue(ContactsContract.CommonDataKinds.StructuredName.DISPLAY_NAME, displayname);
operationList.add(builder.build());
//Create a Data record of custom type "vnd.android.cursor.item/vnd.be.ourservice.profile" to display a link to the profile
builder …Run Code Online (Sandbox Code Playgroud) 我打算使用Celery来处理由我的主服务器发送的事件触发的推送通知和电子邮件.
这些任务需要打开与外部服务器(GCM,APS,电子邮件服务器等)的连接.它们可以一次处理一个,也可以通过单个连接批量处理,以获得更好的性能.
通常会在短时间内单独触发这些任务的几个实例.例如,在一分钟的时间内,可能会有几十个推送通知需要通过不同的消息发送给不同的用户.
在芹菜中处理这个问题的最佳方法是什么?似乎天真的方式是为每条消息简单地创建一个不同的任务,但这需要为每个实例打开一个连接.
我希望会有某种任务聚合器允许我处理例如"所有未完成的推送通知任务".
这样的事情存在吗?有没有更好的方法来解决它,例如附加到活动任务组?
我错过了什么吗?
罗伯特
我想要实现的目标:我希望我的"年龄"聚合不被查询过滤器过滤,我希望能够对其应用过滤器.
所以,如果我从这个查询开始:
{
"query":{
"filtered":{
"filter":{ "terms":{ "family_name":"Brown" } } //filter_1
}
},
"aggs":{
"young_age":{
"filter":{
"range":{ "lt":40, "gt":18 } //filter_2
},
"aggs":{
"age":{
"terms":{
"field":"age"
}
}
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
我的聚合"young_age"将由filter_1和filter_2过滤.我不希望我的聚合被filter_1过滤.
当我查看文档时,我认为全局聚合将解决我的问题,并且我编写了该查询:
{
"query":{
"filtered":{
"filter":{ "terms":{ "family_name":"Brown" } } //filter_1
}
},
"aggs":{
"young_age":{
"global":{}, //<----------- add global
"filter":{
"range":{ "lt":40, "gt":18 } //filter_2
},
"aggs":{
"age":{
"terms":{
"field":"age"
}
}
}
}
}
}
Run Code Online (Sandbox Code Playgroud)
但是弹性搜索会抱怨我的filter_2:
msgstr"""在[global]和[filter]中找到了两个聚合类型定义[age]"""
当然,如果我删除filter_2:
{
"query":{
"filtered":{
"filter":{
"terms":{
"family_name":"Brown"
}
}
} …Run Code Online (Sandbox Code Playgroud) Dataset在Spark中进行分组时,有两种方法:groupBy和groupByKey[K].
groupBy返回RelationalGroupedDataset,同时groupByKey[K]返回KeyvalueGroupedDataset.
它们之间有什么区别?
在什么情况下我应该选择一个而不是另一个?
为什么我的问题是关于"Dataset vs DataFrame"的问题的副本?我不明白.这显然是完全不同的事情!我的问题非常具体而非通用.
aggregation ×10
python ×2
android ×1
apache-spark ×1
asynchronous ×1
bug-tracker ×1
celery ×1
contacts ×1
data.table ×1
eclipse ×1
logging ×1
p2 ×1
pandas ×1
plyr ×1
process ×1
r ×1
rawcontacts ×1
repository ×1
task ×1
time-series ×1
tycho ×1
unique ×1
workflow ×1