标签: data-collection

系统聚集成5-20个节点的组.每个组通过处理传入的传感器数据来生成数据(作为一个团队).每个组都有一个专用节点(蓝色框),充当该组的外观/代理,将数据和状态从组暴露给外部世界.这些集群在地理上是分开的,可以通过不同的网络连接到外部世界(一个可以通过光纤运行,另一个通过3G /卫星运行).我们可能会遇到更短(秒/分钟)和更长(小时)停机.数据由本地每个群集保留.

这些数据需要由外部和中央服务器(绿色框)收集(连续可靠),以便进一步处理,分析和查看各种客户(橙色框).此外,我们需要通过每个组代理节点监视所有节点的状态.不需要直接监视每个节点,即使中间件可以支持它(处理来自~10,000个节点的心跳/状态消息)也是好的.在代理失败的情况下,可以使用其他方法来精确定位各个节点.

此外,我们需要能够与每个节点进行交互以调整设置等,但这似乎更容易解决,因为这主要是在需要时按节点手动处理.可能需要进行一些批量调整,但总体而言,它看起来像标准RPC情况(Web服务或类似情况).当然,如果中间件也可以通过一些优先级的请求/响应机制来处理这个问题.

要求:

1000多个节点发布/提供连续数据
数据需要可靠地(以某种方式)并连续地收集到一个或多个服务器.这可能会建立在中间件之上,使用某种显式请求/响应来请求丢失数据.如果这可以由中间件自动处理,这当然是一个加号.
不止一个服务器/订户需要能够连接到同一数据生产者/发布者并接收相同的数据
数据速率最大范围为每组10-20个每秒
消息大小范围从大约100字节到4-5千字节
节点范围从嵌入式约束系统到普通的COTS Linux/Windows盒子
节点一般使用C/C++,服务器和客户端一般是C++/C#
节点应该(优选地)不需要安装额外的SW或服务器,即每个节点一个专用代理或额外服务是昂贵的
安全性将基于消息,即不需要传输安全性

我们正在寻找一种解决方案,可以处理主要代理节点(蓝色)和服务器(绿色)之间的数据发布/轮询/下载以及从客户端(橙色)到单个节点(RPC样式)之间的通信,以便进行调整设置.

似乎有很多关于逆转情况的讨论和建议; 将数据从服务器分发到许多客户端,但是很难找到与所描述的情况相关的信息.一般的解决方案似乎是使用SNMP,Nagios,Ganglia等来监视和修改大量节点,但对我们来说棘手的部分是数据收集.

我们简要介绍了DDS,ZeroMQ,RabbitMQ(所有节点上需要的代理？),SNMP,各种监控工具,Web服务(JSON-RPC,REST /协议缓冲区)等解决方案.

那么,您是否对易于使用,强大,稳定,轻便,跨平台,跨语言的中间件(或其他)解决方案有任何建议？尽可能简单但不简单.

monitoring data-collection rabbitmq zeromq data-distribution-service

Jak*_*lås

2012 11-21

6
推荐指数

2
解决办法

1187
查看次数

Google Analytics - 它可以收集表单数据吗？

简单场景:我有一个注册表,用户名,密码,电子邮件地址,可能是信用卡号.

在页面底部,我实施了Google Analytics代码.
当用户点击提交时,它会转到google analytics的页面.

问题是..用户输入数据后,GA能否以第一种形式获取数据(用户naem,密码...电子邮件等)？

他们在服务条款或隐私政策中是否对此有所说明？

forms google-analytics data-collection

Mur*_*lai

lucky-day

5
推荐指数

1
解决办法

2490
查看次数

关系数据库与R / Python数据框架

在接触RDBMS系统和其他数据库系统之前，我曾接触过R中的表和数据结构。在R / Python中，从结构化数据（.csv或其他格式）创建表和列表，然后以编程方式进行数据处理是非常优雅的。

去年，我参加了数据库管理课程，学习了有关结构化和非结构化数据库的所有知识。我还注意到，通常将数据从多个数据源馈送到数据库中，而不是直接在R中使用它们（为了方便和约束？）。

出于研究目的，R似乎足以连接，附加甚至复杂的数据操作。

不断出现的问题是：何时通过使用诸如read.csv之类的命令直接使用R，何时通过创建数据库并使用R-SQL接口从表中查询来使用R？

例如，如果我有多源数据，例如（a）人员水平信息（年龄，性别，吸烟习惯），（b）结果变量（例如他们实时进行的调查），（c）协变量信息（环境特征），（d）治疗投入（发生改变结果的事件-调查响应）（d）参加调查的参与者的时间和空间信息

在这种情况下如何处理数据收集和处理。可能会有标准的行业程序，但是我在这里提出这个问题，以了解个人和小组研究人员可以采用的可行和最佳方法的列表。

database database-design data-processing data-collection dataframe

Kar*_*ikS

lucky-day

5
推荐指数

1
解决办法

1416
查看次数

在哪里获取数据来比较缓存算法

我不想在实际数据上比较LRU,SLRU,LFU等缓存算法.

这就是为什么我需要一些方法来生成真实数据来比较缓存算法或从某些应用程序获取这些数据.

caching data-collection data-generation

chi*_*kiy

2015 11-19

5
推荐指数

1
解决办法

179
查看次数

调试和跟踪Hotjar数据

最近,我们公司开始使用Hotjar来收集使用数据.由于这是我第一次使用该服务,我犯了一些错误,这使我找到了一种调试方法.在阅读官方文档,论坛,stackoverflow之后,我一无所获.

我需要做什么/修改才能在Hotjar中启用调试？

debugging data-collection hotjar

Ada*_*dek

2016 11-18

5
推荐指数

1
解决办法

2048
查看次数

寻找不同 vCard 的免费集合 (*.vcf)

我目前正在开发 vCard 解析器。为了测试 vCard 的不同边缘情况（标准允许高方差），我需要收集来自不同来源的 vCard。目前，我正在使用自己创建的一些 vCard，并且想知道网络上是否有免费的 vCard (*.vcf) 集合，我可以将其用于测试目的。

vcf-vcard contacts data-collection addressbook

Mbo*_*000

2020 02-14

4
推荐指数

1
解决办法

853
查看次数

PyCharm: why it collects my personal data

刚刚安装了 PyCharm Community，该社区在 Apache 2.0 许可下应该是免费的，但在我同意将我的个人数据（包括电话号码、IP 地址、税号、实际地址等）分享给 Jetbrains 及其关联公司和第三方以用于不同目的之前，无法启动该软件。目的包括“推广和营销我们的产品”——我不同意这些条款，也没有通过这一点。

为什么需要这些个人信息？它实际上不是免费或开放的吗？刚刚再次打开该网站，可以确认它显示“免费，开放”

licensing jetbrains-ide data-collection pycharm

And*_*lov

lucky-day

3
推荐指数

1
解决办法

3436
查看次数