我正在开发一个Web应用程序,我想执行两种统计/建模操作.
(1)根据存储在我的app(HBase集群)后端的数据进行批量分析.通常,这种操作需要定期进行,比如每晚.数据的大小可能超过可以存储在本地内存中的数据,因此可能需要调用某些支持并行计算的程序包.(2)由前端用户请求触发的动态R执行.典型用例包括小时间序列的预测.用户可以在同一时间发出请求,因此应该支持并发.性能至关重要,因为用户不能无限期地等待响应.
我的问题是:解决这两个问题的技术/ CRAN包的最佳组合是什么?我现在的想法是:
我看到RevoDeployR是一个很棒的工具,但不是开源的,不是吗?
谢谢您的帮助
我在开发中使用 Django 1.9.2 ( DEBUG=True) 和 MySQL 5.6.23。以下是我的数据库设置
DATABASES = {
'default': {
'ENGINE': 'django.db.backends.mysql',
'NAME': 'dbname',
'USER': "django",
'PASSWORD': 'password',
'HOST': 'localhost',
'PORT': '3306',
'CONN_MAX_AGE': 60,
}
}
Run Code Online (Sandbox Code Playgroud)
我正在使用以下命令查询 MySQL 以获取活动连接数:
show status where `variable_name` = 'Threads_connected';
Run Code Online (Sandbox Code Playgroud)
它产生这样的结果
+-------------------+-------+
| Variable_name | Value |
+-------------------+-------+
| Threads_connected | 10 |
+-------------------+-------+
1 row in set (0,00 sec)
Run Code Online (Sandbox Code Playgroud)
每次我向 Django 发出新请求时,连接的线程数都会增加,直到我(1040, 'Too many connections')得到Threads_connected=151. 此外,60 秒后连接不会关闭。
这种行为在生产中似乎不会发生(DEBUG=False)。
我在对象中有一个org.joda.time.DateTimeFormat的实例:
object TimeRange {
lazy val dateFormat = DateTimeFormat.forPattern("YYYY-MM-dd")
}
Run Code Online (Sandbox Code Playgroud)
我的API是异步的(使用Finagle Future),不同的线程可能希望使用函数dateFormat.parseDateTime("2013-07-01")访问我的dateFormat格式化日期.我的问题是:我怎么能确定这个方法调用是线程安全的?我们可以假设没有副作用的所有方法调用都是线程安全的吗?它取决于DateTimeFormat的具体实现吗?
谢谢,
我有一个用scala编写的web服务,它建立在twitter finagle RPC系统之上.现在我们遇到了一些性能问题.我们有外部API组件和数据库层.我打算安装Zipkin以便拥有服务级别跟踪系统.这将使我知道服务级别的瓶颈在哪里.
我想知道是否有框架来监控我的应用程序层内的性能.该应用程序是一套连续应用于我的数据的过滤器,我想知道哪个过滤器需要时间来计算.我听说过JVM分析,但对于我想做的事情似乎有些过分.你会推荐什么 ?谢谢你的帮助.
scala ×2
analytics ×1
concurrency ×1
django ×1
jodatime ×1
mysql ×1
performance ×1
profiling ×1
python ×1
r ×1
web-services ×1