小编taw*_*taw的帖子

create table jobs(
  id auto_increment not null primary key,
  message text not null,
  process_id varbinary(255) null default null,
  key jobs_key(process_id) 
);

然后入队看起来像这样:

insert into jobs(message) values('blah blah');

出列似乎是这样的:

begin;
select * from jobs where process_id is null order by id asc limit 1;
update jobs set process_id = ? where id = ?; -- whatever i just got
commit;
-- return (id, message) to application, cleanup after done

表和入队看起来不错,但出队有点困扰我.回滚的可能性有多大？还是被封锁了？我应该用什么键来制作O(1)-ish？

或者,我正在做什么更好的解决方案？

mysql job-queue

taw*_*taw

2009 01-08

29
推荐指数

4
解决办法

2万
查看次数

快速的基于磁盘的哈希表？

我有一组哈希(MD5的前64位,所以它们是非常随机分布的)我希望能够看到一个新的哈希是否在一个集合中,并将它添加到一个集合中.

集合不是太大,最大的将是数百万个元素,但是有数百个集合,所以我无法将它们全部保存在内存中.

到目前为止我有一些想法:

我试着将它全部保存在sqlite表中,但是一旦它无法适应内存中的所有内容,它就变得非常慢.
布隆过滤器听起来像是会有很高的错误率.我不介意微小的错误率(64位散列已经在4G元素集上发生了1次冲突),但错误率如1%则太高了.
保持文件中具有间隙的哈希的排序列表,并在没有足够的间隙时调整大小.哈希是均匀分布的,所以即使非常简单的方案也应该有效.

我错过了一些非常明显的东西吗任何提示如何实现良好的基于磁盘的哈希表？

hashtable

taw*_*taw

lucky-day

21
推荐指数

3
解决办法

1万
查看次数

如何确保Solr/Lucene不会因java.lang.OutOfMemoryError而死？

我真的很困惑为什么它在索引期间一直死于java.lang.OutOfMemoryError,即使它有几GB的内存.

有没有一个根本原因,它需要手动调整配置文件/ jvm参数,而不是只计算可用的内存量并限制自己的内容？除了Solr之外没有其他程序会遇到这种问题.

是的,每次发生此类崩溃时我都可以继续调整JVM堆大小,但这一切都是如此倒退.

以下是最新此类崩溃的堆栈跟踪,以防相关:

SEVERE: java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOfRange(Arrays.java:3209)
    at java.lang.String.<init>(String.java:216)
    at org.apache.lucene.index.TermBuffer.toTerm(TermBuffer.java:122)
    at org.apache.lucene.index.SegmentTermEnum.term(SegmentTermEnum.java:169)
    at org.apache.lucene.search.FieldCacheImpl$StringIndexCache.createValue(FieldCacheImpl.java:701)
    at org.apache.lucene.search.FieldCacheImpl$Cache.get(FieldCacheImpl.java:208)
    at org.apache.lucene.search.FieldCacheImpl.getStringIndex(FieldCacheImpl.java:676)
    at org.apache.lucene.search.FieldComparator$StringOrdValComparator.setNextReader(FieldComparator.java:667)
    at org.apache.lucene.search.TopFieldCollector$OneComparatorNonScoringCollector.setNextReader(TopFieldCollector.java:94)
    at org.apache.lucene.search.IndexSearcher.search(IndexSearcher.java:245)
    at org.apache.lucene.search.Searcher.search(Searcher.java:171)
    at org.apache.solr.search.SolrIndexSearcher.getDocListNC(SolrIndexSearcher.java:988)
    at org.apache.solr.search.SolrIndexSearcher.getDocListC(SolrIndexSearcher.java:884)
    at org.apache.solr.search.SolrIndexSearcher.search(SolrIndexSearcher.java:341)
    at org.apache.solr.handler.component.QueryComponent.process(QueryComponent.java:182)
    at org.apache.solr.handler.component.SearchHandler.handleRequestBody(SearchHandler.java:195)
    at org.apache.solr.handler.RequestHandlerBase.handleRequest(RequestHandlerBase.java:131)
    at org.apache.solr.core.SolrCore.execute(SolrCore.java:1316)
    at org.apache.solr.servlet.SolrDispatchFilter.execute(SolrDispatchFilter.java:338)
    at org.apache.solr.servlet.SolrDispatchFilter.doFilter(SolrDispatchFilter.java:241)
    at org.apache.catalina.core.ApplicationFilterChain.internalDoFilter(ApplicationFilterChain.java:235)
    at org.apache.catalina.core.ApplicationFilterChain.doFilter(ApplicationFilterChain.java:206)
    at org.apache.catalina.core.StandardWrapperValve.invoke(StandardWrapperValve.java:233)
    at org.apache.catalina.core.StandardContextValve.invoke(StandardContextValve.java:191)
    at org.apache.catalina.core.StandardHostValve.invoke(StandardHostValve.java:128)
    at org.apache.catalina.valves.ErrorReportValve.invoke(ErrorReportValve.java:102)
    at org.apache.catalina.core.StandardEngineValve.invoke(StandardEngineValve.java:109)
    at org.apache.catalina.connector.CoyoteAdapter.service(CoyoteAdapter.java:286)
    at org.apache.coyote.http11.Http11Processor.process(Http11Processor.java:845)
    at org.apache.coyote.http11.Http11Protocol$Http11ConnectionHandler.process(Http11Protocol.java:583)
    at org.apache.tomcat.util.net.JIoEndpoint$Worker.run(JIoEndpoint.java:447)
    at java.lang.Thread.run(Thread.java:619)

Run Code Online (Sandbox Code Playgroud)

lucene solr jvm

taw*_*taw

lucky-day

15
推荐指数

1
解决办法

1万
查看次数

阅读gzip压缩文本文件的最后几行

假设file.txt.gz有2GB,我想看到最后100行左右.zcat <file.txt.gz | tail -n 100会经历所有这些.

我知道压缩文件不能随机访问,如果我剪切让我们说它的最后5MB,那么剪切后的数据将是垃圾 - 但是可以gzip重新同步并解码其余的流吗？

如果我理解正确,gzip流是一个简单的命令流,描述输出什么 - 应该可以与之同步.然后是最近未压缩数据的32kB滑动窗口 - 如果我们从中间开始当然是垃圾,但我猜它通常会快速填充真实数据,从那时起减压是微不足道的(好吧,从文件的开始到结束,一些东西可能会一遍又一遍地被重新复制,因此滑动窗口永远不会清除 - 如果它只是常见的话会让我感到惊讶 - 如果发生这种情况,我们只需要处理整个文件.

我不是非常渴望自己做这个gzip hackery的亲戚 - 以前没有人做过,因为处理损坏的文件,如果没有别的？

或者 - 如果gzip真的不能这样做,是否有任何其他流压缩程序可以像它一样工作,除了它们允许重新同步中流？

编辑:我发现zlib的纯Ruby重新实现,并在浏览窗口内打印它以打印字节数.事实证明事情确实会被反复复制很多,即使在5MB以后,滑动窗口仍然包含来自前100个字节的内容,以及整个文件中的随机位置.

我们甚至无法通过读取前几个块和最后几个块来解决这个问题,因为那些第一个字节没有被直接引用,它只是一个非常长的副本链,并且找出它所指的内容的唯一方法是通过处理这一切.

基本上,使用默认选项我想要的可能是不可能的.

另一方面,zlib具有Z_FULL_FLUSH清除此滑动窗口以进行同步的选项.所以问题仍然存在.假设zlib偶尔同步,是否有任何工具可以读取它的结尾而不处理它？

gzip

taw*_*taw

2011 04-16

14
推荐指数

1
解决办法

2517
查看次数