我以前能够成功地将一个270万~3000的奇数列文件加载到R data.table中但是现在我得到了一个段错误.文件的大小仍然相似.不确定可能发生了什么.错误消息也没有帮助.机器有足够的内存~256 Gb
> dosages <- fread(combined_dosage_file, header=F, stringsAsFactors=F)
*** caught segfault ***
address (nil), cause 'unknown'
Traceback:
1: fread(combined_dosage_file, header = F, stringsAsFactors = F)
Possible actions:
1: abort (with core dump, if enabled)
2: normal R exit
3: exit R without saving workspace
4: exit R saving workspace
Run Code Online (Sandbox Code Playgroud)
SessionInfo()
R version 3.0.1 (2013-05-16)
Platform: x86_64-unknown-linux-gnu (64-bit)
locale:
[1] C
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] data.table_1.8.10
Run Code Online (Sandbox Code Playgroud)
详细输出在500K行的较小测试文件上运行
> f …Run Code Online (Sandbox Code Playgroud) 我正在寻找一个有效的解决方案,找到一个字符串中最长的子字符串,容忍主字符串中的n个不匹配
例如:主字符串
搜索字符串:
另外我可能会遇到子串的一部分位于主字符串末尾的情况,我也想选择它.
如果你能给出一些指示,我将不胜感激.
PS:我将有一个搜索字符串和大约1亿个主字符串来搜索子字符串.
谢谢!-Abhi
对于我来说,我看起来像一个简单的概念问题.在努力寻找Web和Stack Overflow上的类似问题后,我找不到类似的东西,所以我想我可以问你.
我正在构建一个深度嵌套的哈希数据结构的哈希.深度可以是10-20倍.为了这个问题,我只列出深度一.
我无法以递归方式遍历Perl中的示例哈希.我也包括了我的代码.
它给了我以下错误:
在使用"严格参考"时,不能使用字符串("1")作为HASH参考
很明显:我的哈希必然会有一些值为1的键.我无法避免它们.
$VAR1 = {
'Eukaryota' => {
'Rhodophyta' => {'count' => 5},
'Alveolata' => {'count' => 16},
'stramenopiles' => {'count' => 57},
'count' => 155,
'Glaucocystophyceae' => {'count' => 1},
'Cryptophyta' => {'count' => 18},
'Malawimonadidae' => {'count' => 1},
'Viridiplantae' => {'count' => 57},
},
'Bacteria' => {
'Cyanobacteria' => {'count' => 1},
'Actinobacteria' => {'count' => 4},
'count' => 33,
'Proteobacteria' => {'count' => 25},
'Deinococcus-Thermus' => {'count' …Run Code Online (Sandbox Code Playgroud) 在数据计算结束后有效转换 data.table 的好方法是什么
nrow=500e3
ncol=2000
m <- matrix(rnorm(nrow*ncol),nrow=nrow)
colnames(m) <- c('foo',seq(ncol-1))
dt <- data.table(m)
df <- as.data.frame(m)
dt <- t(dt) #take a long time and converts the data table to a matrix
Run Code Online (Sandbox Code Playgroud)
计算时间
1. to transpose the matrix
system.time(mt <- t(m))
user system elapsed
20.005 0.016 20.024
2. to transpose the dt
system.time(dt <- t(dt))
user system elapsed
32.722 15.129 47.855
3. to transpose a df
system.time(df <- t(df))
user system elapsed
32.414 15.357 47.775
Run Code Online (Sandbox Code Playgroud) 这是我在pycon参加Wesley教程后第一次尝试使用Pandas库.
在对数据框进行了一些讨论后,我很高兴能够以我想要的方式按下数据,但是在绘制数据时遇到了麻烦.我想这也表明了我对matplotlib库的天真.
我所拥有的是pandas Series对象,包含以下数据.我想绘制一个带有col 1('file')的条形图作为垂直方向的标签.
sample data here:
http://pastebin.com/y2w0uJPQ
Run Code Online (Sandbox Code Playgroud) 我使用pandas数据框聚合数据.以下是显示的一些实际数据以及我如何汇总它.
fdf.groupby(['row',col'])['percent'].sum()
我想要做的是创建一个2d numpy数组(rows = row,columns = col).有光滑的方式吗?
我做类似事情的另一种方法是创建一个数据透视表
pivot_table(fdf,values='percent',rows='row',cols='col', aggfunc=np.sum)
在这种情况下,我想将此数据透视表转换为2d numpy数组.有没有办法让我索引到这个表的每个单元格.如果是这样,那么我可能会对表本身好.
我正在测试Whoosh的文本搜索,现在一个简单的人为例子对我不起作用.我想我在这里错过了一些东西.在下面的代码中,我希望它给出一个搜索结果,但我得到0次点击.
import sys
import os
from whoosh.fields import Schema, TEXT, STORED
from whoosh.index import create_in, open_dir
from whoosh.query import *
#creating the schema
schema = Schema(tax_id=STORED,
name=TEXT(stored=True))
#creating the index
if not os.path.exists("index"):
os.mkdir("index")
ix = create_in("index",schema)
ix = open_dir("index")
writer = ix.writer()
writer.add_document(tax_id="17",name=u"Methyliphilus methylitrophus")
writer.add_document(tax_id="17",name=u"Methylophilus methylotrophus Jenkins et al. 1987")
writer.add_document(tax_id="45",name=u"Chondromyces lichenicolus")
writer.commit()
myquery = And([Term("name",u"Chondromyces")])
with ix.searcher() as searcher:
print searcher.search(myquery)
Run Code Online (Sandbox Code Playgroud)
输出:
<Top 0 Results for And([Term('name', u'Chondromyces lichenicolus')]) runtime=9.41753387451e-05>
Run Code Online (Sandbox Code Playgroud)
谢谢!
我有大约1亿行,例如:
A : value of A
B : value of B
|
|
|
Z : value of Z upto 100 million unique entries
Run Code Online (Sandbox Code Playgroud)
目前,每次运行程序时,我都会将整个文件作为哈希加载,这需要一些时间.在运行期间,我需要访问A,B的值,因为我知道A,B等.
我想知道我是否可以进行一次哈希并将其存储为二进制数据结构或索引文件.使用最少的编程可以在perl中实现什么.
谢谢!-Abhi
我在R中创建一个data.table并设置一个用作键的列.当我尝试从数据表中检索值时; 对于没有匹配的行,我得到NA值.我通常不希望在我的搜索中出现这种行为.以下示例
library(data.table)
dt <- data.table('foo'=seq(10),bar=sample(letters,10))
setkey(dt,bar)
dt[sample(letters,5)]
> dt[sample(letters,5)]
b foo
1: x 4
2: q 2
3: u 8
4: s NA
5: b NA
Run Code Online (Sandbox Code Playgroud)