小编Car*_*son的帖子

基于投票的用户之间的相似性

假设每首歌都有一组用户,一组歌曲和一组投票:

=========== =========== =======
User        Song        Vote
=========== =========== =======
user1       song1       [score]
user1       song2       [score]
user1       song3       [score]
user2       song1       [score]
user2       song2       [score]
user2       song3       [score]
user3       song1       [score]
user3       song2       [score]
user3       song3       [score]
user-n      song-n      [score]
=========== =========== =======
Run Code Online (Sandbox Code Playgroud)

什么是基于歌曲投票计算用户相似度的最有效方法?有没有比为每首歌重复每个用户和每次投票更好的方法?

python mysql database information-retrieval similarity

6
推荐指数
2
解决办法
1835
查看次数

如何确保MySQL使用所有可用内存?

愚蠢的问题:我有4 GB的RAM,我的数据集大约是500 MB.如何确保MySQL/InnoDB将我的数据集保存在RAM中?

mysql database performance innodb

6
推荐指数
2
解决办法
1943
查看次数

OpenGraph"description"字段可以包含HTML吗?

通过实施OpenGraph的服务(如Facebook)共享时,我可以在该og:description字段中包含HTML 吗?

facebook opengraph

6
推荐指数
1
解决办法
4628
查看次数

使用etcd来管理Django设置

假设我有一个Django应用程序,我已经将环境变量存储卸载到etcd.当我部署新服务器时,应用程序可以从etcd读取,将vars写入(例如)可以在应用程序启动时有条件地加载的Python文件.这是可以接受的.

但是,当配置发生变化时,我无从知晓.Afaik,etcd不会广播变化.我是否需要设置一个守护程序,轮询然后在值更改时重新加载我的应用程序?每当我需要使用其中一个参数时,我应该查询etcd吗?人们如何处理这个问题?

python django configuration distributed etcd

6
推荐指数
1
解决办法
844
查看次数

盲目地对输入数据的新趋势进行分类

谷歌新闻如何自动对新兴主题的文件进行分类和排名,如"奥巴马的2011年预算"?

我有一堆用棒球数据标记的文章,如球员名称和与文章的相关性(感谢,opencalais),并且很想创建一个谷歌新闻风格的界面,排列和显示新帖子,特别是新兴话题.我认为一个朴素的贝叶斯分类器可以用一些静态类别进行训练,但这并不能真正跟踪"这个球员刚刚被交易到这个球队,这些其他球员也参与了"的趋势.

statistics artificial-intelligence classification bayesian

5
推荐指数
1
解决办法
179
查看次数

Python全局变量是线程安全的吗?

编辑:我问全局变量在龙卷风这样的单线程Web框架中是否安全

即时通讯使用mongoengine orm,它从全局变量获取数据库连接:

_get_db() # gets the db connection
Run Code Online (Sandbox Code Playgroud)

我还使用了龙卷风,一个单线程的python网络框架。在一个特定的视图中,我需要获取数据库连接并取消引用DBRef对象(类似于外键):

# dereference a DBRef
_get_db().dereference(some_db_ref)
Run Code Online (Sandbox Code Playgroud)

由于返回的连接_get_db是全局变量,是否有可能发生冲突并且将错误的值返回到错误的线程?

python tornado mongodb

5
推荐指数
1
解决办法
2872
查看次数

沿曲线订购数据库查询结果

我有一个歌曲表和他们的每分钟节拍值,我想建立遵循如下曲线的播放列表:

  ^       . . .
  |     .       .
b |   .           .
p |  .              .
m | .                .
  x-------------------->
    time
Run Code Online (Sandbox Code Playgroud)

我意识到这可能是不可能在一个SQL语句,但我感兴趣的听力解决方案 - 现在,最好的方法,我看到在我的应用程序代码(蟒蛇)是选择超过必要和订购更多曲目.

mysql sql database

5
推荐指数
1
解决办法
153
查看次数

使用EC2可用区的最佳做法是什么?

我正在重新启动EC2上的站点(每天约5mm +访问次数),并对如何在不同数据中心部署节点感到困惑.我最基本的设置是Varnish服务器后面的两个节点.

我应该在不同的可用区域中有两个Varnish实例,每个实例都有与共享RDS数据库通信的WWW节点吗?每个Varnish实例都可以通过Amazon的负载均衡器进行负载均衡.

就像是:

1负载均衡器说话:

  • 弗吉尼亚州的清漆,与其自己的us-east-x节点对话
  • 加利福尼亚州的清漆,与其自己的us-west-x节点对话

在多个数据中心部署对我来说是一个新概念,所以我们非常感谢所有人的帮助!谢谢!

deployment amazon amazon-ec2

5
推荐指数
1
解决办法
1530
查看次数

如何将实时、不断更新的数据从 REST API 发送到移动应用程序?

将不断更新的数据从服务器(通过 REST API 或套接字)发送到 iOS 或 Android 应用程序的最佳方式是什么?我应该创建一个套接字连接并拥有一个输出数据的套接字服务器,还是应该让应用程序定期轮询后端资源?谢谢!

rest mobile android real-time ios

5
推荐指数
1
解决办法
4919
查看次数

如何分析正在运行的 Django 应用程序?

我的大型 Django 应用程序在运行时占用 30-60 MB 的 RAM,以及高达 40% 的 CPU。如何动态监控和分析我的应用程序以确定潜在的内存和 CPU 泄漏在哪里?

python django profiling

5
推荐指数
1
解决办法
5105
查看次数