小编Abh*_*bhi的帖子

python中的后缀树实现

只是想知道你是否知道python中任何基于C的扩展可以帮助我在线性时间内构造后缀树/数组?

python suffix-tree

8
推荐指数
1
解决办法
1万
查看次数

使用30GB空格分隔文件的fread段错误,其中一些行以空格开头

我以前能够成功地将一个270万~3000的奇数列文件加载到R data.table中但是现在我得到了一个段错误.文件的大小仍然相似.不确定可能发生了什么.错误消息也没有帮助.机器有足够的内存~256 Gb

>   dosages <- fread(combined_dosage_file, header=F, stringsAsFactors=F)

 *** caught segfault ***
address (nil), cause 'unknown'

Traceback:
 1: fread(combined_dosage_file, header = F, stringsAsFactors = F)

Possible actions:
1: abort (with core dump, if enabled)
2: normal R exit
3: exit R without saving workspace
4: exit R saving workspace
Run Code Online (Sandbox Code Playgroud)

SessionInfo()

R version 3.0.1 (2013-05-16)
Platform: x86_64-unknown-linux-gnu (64-bit)

locale:
[1] C

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base

other attached packages:
[1] data.table_1.8.10
Run Code Online (Sandbox Code Playgroud)

详细输出在500K行的较小测试文件上运行

> f …
Run Code Online (Sandbox Code Playgroud)

r data.table

8
推荐指数
1
解决办法
781
查看次数

perl中的高效子字符串匹配

我正在寻找一个有效的解决方案,找到一个字符串中最长的子字符串,容忍主字符串中的n个不匹配

例如:主字符串

  1. AGACGTAC TACTCTACT AGATGCA*TACTCTAC*
  2. AGACGTAC TACTCTACT AGATGCA*TACTCTAC*
  3. AGACGTAC TACTCTACA AGATGCA*TACTCTAC*
  4. AGACGTAC TACTTTACA AGATGCA*TACTCTAC*

搜索字符串:

  1. TACTCTACT:这应该被认为是对所有上述主要字符串的匹配.

另外我可能会遇到子串的一部分位于主字符串末尾的情况,我也想选择它.

如果你能给出一些指示,我将不胜感激.

PS:我将有一个搜索字符串和大约1亿个主字符串来搜索子字符串.

谢谢!-Abhi

string perl substring string-matching bioperl

7
推荐指数
2
解决办法
1716
查看次数

如何递归遍历嵌套哈希数据结构?

对于我来说,我看起来像一个简单的概念问题.在努力寻找Web和Stack Overflow上的类似问题后,我找不到类似的东西,所以我想我可以问你.

我正在构建一个深度嵌套的哈希数据结构的哈希.深度可以是10-20倍.为了这个问题,我只列出深度一.

我无法以递归方式遍历Perl中的示例哈希.我也包括了我的代码.

它给了我以下错误:

在使用"严格参考"时,不能使用字符串("1")作为HASH参考

很明显:我的哈希必然会有一些值为1的键.我无法避免它们.

$VAR1 = {
    'Eukaryota' => {
        'Rhodophyta'         => {'count' => 5},
        'Alveolata'          => {'count' => 16},
        'stramenopiles'      => {'count' => 57},
        'count'              => 155,
        'Glaucocystophyceae' => {'count' => 1},
        'Cryptophyta'        => {'count' => 18},
        'Malawimonadidae'    => {'count' => 1},
        'Viridiplantae'      => {'count' => 57},
    },
    'Bacteria' => {
        'Cyanobacteria'       => {'count' => 1},
        'Actinobacteria'      => {'count' => 4},
        'count'               => 33,
        'Proteobacteria'      => {'count' => 25},
        'Deinococcus-Thermus' => {'count' …
Run Code Online (Sandbox Code Playgroud)

recursion perl hash

6
推荐指数
1
解决办法
8676
查看次数

转置数据表

在数据计算结束后有效转换 data.table 的好方法是什么

nrow=500e3
ncol=2000
m <- matrix(rnorm(nrow*ncol),nrow=nrow)
colnames(m) <- c('foo',seq(ncol-1))
dt <- data.table(m)
df <- as.data.frame(m)
dt <- t(dt)  #take a long time and converts the data table to a matrix
Run Code Online (Sandbox Code Playgroud)

计算时间

1. to transpose the matrix
system.time(mt <- t(m))
   user  system elapsed
 20.005   0.016  20.024

2. to transpose the dt
system.time(dt <- t(dt))
user  system elapsed
32.722  15.129  47.855

3. to transpose a df
system.time(df <- t(df))
user  system elapsed
32.414  15.357  47.775
Run Code Online (Sandbox Code Playgroud)

r data.table

6
推荐指数
1
解决办法
2680
查看次数

在熊猫数据框架上绘制堆积的条形图

这是我在pycon参加Wesley教程后第一次尝试使用Pandas库.

在对数据框进行了一些讨论后,我很高兴能够以我想要的方式按下数据,但是在绘制数据时遇到了麻烦.我想这也表明了我对matplotlib库的天真.

我所拥有的是pandas Series对象,包含以下数据.我想绘制一个带有col 1('file')的条形图作为垂直方向的标签.

sample data here:
http://pastebin.com/y2w0uJPQ 
Run Code Online (Sandbox Code Playgroud)

python pandas

5
推荐指数
1
解决办法
3879
查看次数

pandas将数据聚合为numpy数组:数据结构转换

我使用pandas数据框聚合数据.以下是显示的一些实际数据以及我如何汇总它.

fdf.groupby(['row',col'])['percent'].sum()

http://pastebin.com/R8XWpgtU

我想要做的是创建一个2d numpy数组(rows = row,columns = col).有光滑的方式吗?

我做类似事情的另一种方法是创建一个数据透视表

pivot_table(fdf,values='percent',rows='row',cols='col', aggfunc=np.sum)

在这种情况下,我想将此数据透视表转换为2d numpy数组.有没有办法让我索引到这个表的每个单元格.如果是这样,那么我可能会对表本身好.

python pandas

5
推荐指数
1
解决办法
2204
查看次数

文字搜索与飞快移动

我正在测试Whoosh的文本搜索,现在一个简单的人为例子对我不起作用.我想我在这里错过了一些东西.在下面的代码中,我希望它给出一个搜索结果,但我得到0次点击.

import sys
import os

from whoosh.fields import Schema, TEXT, STORED
from whoosh.index import create_in, open_dir
from whoosh.query import *

#creating the schema
schema = Schema(tax_id=STORED,
                name=TEXT(stored=True))

#creating the index
if not os.path.exists("index"):
    os.mkdir("index")

ix = create_in("index",schema)
ix = open_dir("index")
writer = ix.writer()
writer.add_document(tax_id="17",name=u"Methyliphilus methylitrophus")
writer.add_document(tax_id="17",name=u"Methylophilus methylotrophus Jenkins et al. 1987")
writer.add_document(tax_id="45",name=u"Chondromyces lichenicolus") 
writer.commit()

myquery = And([Term("name",u"Chondromyces")])
with ix.searcher() as searcher:
    print searcher.search(myquery)
Run Code Online (Sandbox Code Playgroud)

输出:

<Top 0 Results for And([Term('name', u'Chondromyces lichenicolus')]) runtime=9.41753387451e-05>
Run Code Online (Sandbox Code Playgroud)

谢谢!

python whoosh

5
推荐指数
1
解决办法
5571
查看次数

在Perl中快速查找:可以重新加载哈希值吗?

我有大约1亿行,例如:

A : value of A
B : value of B
|
|
|
Z : value of Z  upto 100 million unique entries
Run Code Online (Sandbox Code Playgroud)

目前,每次运行程序时,我都会将整个文件作为哈希加载,这需要一些时间.在运行期间,我需要访问A,B的值,因为我知道A,B等.

我想知道我是否可以进行一次哈希并将其存储为二进制数据结构或索引文件.使用最少的编程可以在perl中实现什么.

谢谢!-Abhi

perl hash

4
推荐指数
2
解决办法
2323
查看次数

过滤行时的R data.table行为

我在R中创建一个data.table并设置一个用作键的列.当我尝试从数据表中检索值时; 对于没有匹配的行,我得到NA值.我通常不希望在我的搜索中出现这种行为.以下示例

library(data.table) 
dt <- data.table('foo'=seq(10),bar=sample(letters,10))
setkey(dt,bar)
dt[sample(letters,5)]


> dt[sample(letters,5)]
   b foo
1: x   4
2: q   2
3: u   8
4: s  NA
5: b  NA
Run Code Online (Sandbox Code Playgroud)

r data.table

4
推荐指数
1
解决办法
958
查看次数