Gre*_*ind 4 python algorithm indexing binary-tree
我有许多(数千!)数据文件,这些数据文件采用标准的基于字段的格式(想象制表符分隔,每行中每个文件中的相同字段).我正在讨论使这些数据可用/可搜索的各种方法.(一些选项包括RDBMS,NoSQL的东西,使用grep/awk和朋友等).
特别是,一个吸引我的想法是以某种方式"索引"文件.由于这些文件是只读的(和静态的),我想象一些包含二叉树的持久文件(每个索引字段一个,就像在其他数据存储中一样).我对如何做到这一点持开放态度,或者听说这只是疯了.大多数情况下,我最喜欢的搜索引擎并未为此提供任何预先解决的解决方案.
我意识到这有点不合理,欢迎解决方案.
(所有这些都是基于我的观察和测试,但我愿意纠正)
BDB
RDBMS中
胜利:
损失: