小编Dna*_*iel的帖子

使用anaconda更新到python 3.7

Python 3.7 alpha版本已经发布,但我还没有找到任何关于如何使用Anaconda更新到python 3.7的帖子 - 也许他们会等待官方发布?有什么建议?

anaconda python-3.7

70
推荐指数
5
解决办法
9万
查看次数

计算大文件中的行数

我通常使用大约20 Gb的文本文件,我发现自己经常计算给定文件中的行数.

我这样做的方式现在只是cat fname | wc -l,而且需要很长时间.有没有更快的解决方案?

我在安装了Hadoop的高性能集群中工作.我想知道地图减少方法是否有帮助.

我希望解决方案像一线运行一样简单,就像wc -l解决方案一样,但不确定它是多么可行.

有任何想法吗?

linux mapreduce

64
推荐指数
6
解决办法
10万
查看次数

在python中更改文件的第一行

我只需要读取一个巨大文件的第一行并进行更改.

有没有一个技巧只能更改文件的第一行并使用Python将其另存为另一个文件?我的所有代码都是在python中完成的,可以帮助我保持一致性.

这个想法是不必读取然后写入整个文件.

python

24
推荐指数
2
解决办法
2万
查看次数

使用ggplot添加动态字幕

我正在尝试使用ggplot添加副标题.类似的问题在这里被问到:如何添加不同大小和颜色的ggplot2字幕?,答案如下:

p <- p + ggtitle(expression(atop(paste('TITLE'), atop(italic(paste('SUBTITLE')), ""))))
Run Code Online (Sandbox Code Playgroud)

不过,话'TITLE''SUBTITLE'需要被硬编码,与地块的1000打交道时呈现的可扩展性和自动化问题.

这不起作用:

plot.title = 'TITLE'
plot.subtitle = 'SUBTITLE'    
p <- p + ggtitle(expression(atop(paste(plot.title), atop(italic(paste(plot.subtitle)), ""))))
Run Code Online (Sandbox Code Playgroud)

我想如何正确添加动态字幕的问题,使用这个想法归结为:是否有可能在表达式和顶部使用字符变量?

r ggplot2

24
推荐指数
1
解决办法
1万
查看次数

awk one liner仅根据列的值选择行

我想读取filein.txt(制表符分隔)并输出一个fileout.txt,其中只有与给定列的值匹配的行,并删除要查询的列.即

filein.txt
#name\thouse\taddress
roger\tvictorian\t223 dolan st.
maggie\tfrench\t12 alameda ave.
kingston\tvictorian\t224 house st.
robert\tamerican\t22 dolan st.
Run Code Online (Sandbox Code Playgroud)

让我们说我只想选择房屋victorian风格的行,那么我的fileout.txt应该是这样的:

fileout.txt
#name\taddress
roger\t223 dolan st.
kingston\t224 house st.
Run Code Online (Sandbox Code Playgroud)

unix linux awk

16
推荐指数
2
解决办法
5万
查看次数

如何从外部代码和Makefile启动Codeblocks项目?

我有C++代码,它依赖于boost和其他库,因此这段代码有一个调用boost的makefile.

我现在正在尝试开始在linux中的代码块中开发此代码,所以为了做到这一点,我有两个基本问题:

(1)如何将代码作为代码块导入新项目?这似乎是一个很好的rec:http://www.programmingforums.org/thread44976.html

(2)如何使用代码块调用makefile,而不是尝试编译代码的代码块(由于代码块不知道它需要调用boost,因此会失败).

c++ unix linux compiler-construction codeblocks

15
推荐指数
2
解决办法
2万
查看次数

通过使用多核和并行编程来加速data.table组

我有一个很大的代码,聚合步骤是速度方面的当前瓶颈.

在我的代码中,我想加快数据分组步骤的速度.我的数据的SNOTE(简单非平凡示例)如下所示:

library(data.table)
a = sample(1:10000000, 50000000, replace = TRUE)
b = sample(c("3m","2m2d2m","3m2d1i3s2d","5m","4m","9m","1m"), 50000000, replace = TRUE)
d = sample(c("3m","2m2d2m","3m2d1i3s2d","5m","4m","9m","1m"), 50000000, replace = TRUE)
e = a
dt = data.table(a = a, b = b, d = d, e = e)
system.time(c.dt <- dt[,list(b = paste(b, collapse=""), d = paste(d, collapse=""), e = e[1], by=a)])
   user  system elapsed 
 60.107   3.143  63.534
Run Code Online (Sandbox Code Playgroud)

这对于如此大的数据示例来说非常快,但在我的情况下,我仍在寻找进一步的加速.在我的情况下,我有多个核心,所以我几乎肯定必须有一种方法来使用这种计算能力.

我愿意将我的数据类型更改为data.frame或idata.frame对象(理论上,idata.frame应该比data.frames更快).

我做了一些研究,看起来plyr软件包有一些并行功能可能会有所帮助,但我仍然在努力研究如何为我正在尝试的分组做这件事.在另一篇SO帖子中,他们讨论了一些这些想法.由于它使用了foreach函数,我仍然不确定我在这个并行化方面取得了多少成就.根据我的经验,foreach函数对于数百万的快速操作来说并不是一个好主意,因为核心之间的通信工作最终会减慢并行化工作的速度.

r mclapply data.table

15
推荐指数
2
解决办法
6774
查看次数

python shuffle这样的位置永远不会重复

我想做一个列表的随机随机但有一个条件:一个元素在shuffle之后永远不会处于相同的原始位置.

有没有一种方法可以在python中为列表执行此操作?

例:

list_ex = [1,2,3]
Run Code Online (Sandbox Code Playgroud)

以下每个混洗列表应该在shuffle之后具有相同的采样概率:

list_ex_shuffled = [2,3,1]
list_ex_shuffled = [3,1,2]
Run Code Online (Sandbox Code Playgroud)

但是不允许排列[1,2,3],[1,3,2],[2,1,3]和[3,2,1],因为它们都重复了一个元素位置.

注意:list_ex中的每个元素都是唯一的id.不允许重复相同的元素.

有任何想法吗?谢谢!

python random shuffle

14
推荐指数
3
解决办法
3148
查看次数

使用R折叠数据框中的行

我在R中有一个数据框,定义如下:

数据框:

col 1  col 2  col 3 col4 
200    AIG   8.5   12   
800    AIG   8.1   20.1   
500    A1B   20   50.5   
800    A1B   12   30   
120    A2M   1.6   8.5   

dat <- structure(list(col1 = c(200, 800, 500, 800, 120), col2 = structure(c(3L, 
    3L, 1L, 1L, 2L), .Label = c("A1B", "A2M", "AIG"), class = "factor"), 
        col3 = c(8.5, 8.1, 20, 12, 1.6), col4 = c(12, 20.1, 50.5, 
        30, 8.5)), .Names = c("col1", "col2", "col3", "col4"), …
Run Code Online (Sandbox Code Playgroud)

r dataframe

13
推荐指数
3
解决办法
2万
查看次数

在R中记录data.table

我在R中使用fread函数将文件读取到data.tables对象.

但是,在阅读文件时,我想跳过以#开头的行,这可能吗?我在fread文档中找不到任何提及.

r fread data.table

13
推荐指数
2
解决办法
2万
查看次数