Gde*_*lin 6 c ruby performance serialization ruby-on-rails
如果使用Marshal.dump写入文件,我有一个大约10兆字节的Ruby哈希.在gzip压缩之后它大约是500千字节.
迭代和更改此哈希在ruby中非常快(一毫秒的分数).即使复制它也非常快.
问题是我需要在Ruby on Rails进程之间共享此哈希中的数据.为了使用Rails缓存(file_store或memcached)执行此操作,我首先需要Marshal.dump文件,但是在序列化文件时会产生1000毫秒的延迟,在序列化时会产生400毫秒的延迟.
理想情况下,我希望能够在不到100毫秒的时间内从每个进程保存和加载此哈希.
一个想法是生成一个新的Ruby进程来保存这个哈希,为其他进程提供一个API来修改或处理其中的数据,但我想避免这样做,除非我确定没有其他方法可以共享这个对象很快.
有没有一种方法可以更直接地在进程之间共享此哈希,而无需序列化或反序列化它?
这是我用来生成类似于我正在使用的哈希的代码:
@a = []
0.upto(500) do |r|
@a[r] = []
0.upto(10_000) do |c|
if rand(10) == 0
@a[r][c] = 1 # 10% chance of being 1
else
@a[r][c] = 0
end
end
end
@c = Marshal.dump(@a) # 1000 milliseconds
Marshal.load(@c) # 400 milliseconds
Run Code Online (Sandbox Code Playgroud)
更新:
由于我的原始问题没有得到很多答复,我假设没有像我希望的那样简单的解决方案.
目前我正在考虑两种选择:
我的问题的范围已经增加,使得哈希可能比我原来的例子更大.所以#2可能是必要的.但是我不知道从哪里开始编写暴露适当API的C应用程序.
通过如何最好地实施#1或#2的良好演练可能会获得最佳答案.
更新2
我最终将它实现为一个用Ruby 1.9编写的独立应用程序,它具有与应用程序实例通信的DRb接口.我使用Daemons gem在Web服务器启动时生成DRb实例.启动时,DRb应用程序从数据库加载必要的数据,然后与客户端通信以返回结果并保持最新.它现在在生产中运行得很好.谢谢您的帮助!
sinatra 应用程序可以工作,但与 DRb 服务相比,序列化和 HTML 解析可能会影响性能。
这是一个基于您在相关问题中的示例的示例。我使用哈希而不是数组,因此您可以使用用户 ID 作为索引。这样就不需要在服务器上同时保留兴趣表和用户 ID 表。请注意,与您的示例相比,兴趣表是“转置”的,这无论如何都是您想要的方式,因此可以在一次调用中更新它。
# server.rb
require 'drb'
class InterestServer < Hash
include DRbUndumped # don't send the data over!
def closest(cur_user_id)
cur_interests = fetch(cur_user_id)
selected_interests = cur_interests.each_index.select{|i| cur_interests[i]}
scores = map do |user_id, interests|
nb_match = selected_interests.count{|i| interests[i] }
[nb_match, user_id]
end
scores.sort!
end
end
DRb.start_service nil, InterestServer.new
puts DRb.uri
DRb.thread.join
# client.rb
uri = ARGV.shift
require 'drb'
DRb.start_service
interest_server = DRbObject.new nil, uri
USERS_COUNT = 10_000
INTERESTS_COUNT = 500
# Mock users
users = Array.new(USERS_COUNT) { {:id => rand(100000)+100000} }
# Initial send over user interests
users.each do |user|
interest_server[user[:id]] = Array.new(INTERESTS_COUNT) { rand(10) == 0 }
end
# query at will
puts interest_server.closest(users.first[:id]).inspect
# update, say there's a new user:
new_user = {:id => 42}
users << new_user
# This guy is interested in everything!
interest_server[new_user[:id]] = Array.new(INTERESTS_COUNT) { true }
puts interest_server.closest(users.first[:id])[-2,2].inspect
# Will output our first user and this new user which both match perfectly
Run Code Online (Sandbox Code Playgroud)
要在终端中运行,请启动服务器并将输出作为参数提供给客户端:
$ ruby server.rb
druby://mal.lan:51630
$ ruby client.rb druby://mal.lan:51630
[[0, 100035], ...]
[[45, 42], [45, 178902]]
Run Code Online (Sandbox Code Playgroud)