Python 3.7 alpha版本已经发布,但我还没有找到任何关于如何使用Anaconda更新到python 3.7的帖子 - 也许他们会等待官方发布?有什么建议?
我通常使用大约20 Gb的文本文件,我发现自己经常计算给定文件中的行数.
我这样做的方式现在只是cat fname | wc -l,而且需要很长时间.有没有更快的解决方案?
我在安装了Hadoop的高性能集群中工作.我想知道地图减少方法是否有帮助.
我希望解决方案像一线运行一样简单,就像wc -l解决方案一样,但不确定它是多么可行.
有任何想法吗?
我只需要读取一个巨大文件的第一行并进行更改.
有没有一个技巧只能更改文件的第一行并使用Python将其另存为另一个文件?我的所有代码都是在python中完成的,可以帮助我保持一致性.
这个想法是不必读取然后写入整个文件.
我正在尝试使用ggplot添加副标题.类似的问题在这里被问到:如何添加不同大小和颜色的ggplot2字幕?,答案如下:
p <- p + ggtitle(expression(atop(paste('TITLE'), atop(italic(paste('SUBTITLE')), ""))))
Run Code Online (Sandbox Code Playgroud)
不过,话'TITLE'和'SUBTITLE'需要被硬编码,与地块的1000打交道时呈现的可扩展性和自动化问题.
这不起作用:
plot.title = 'TITLE'
plot.subtitle = 'SUBTITLE'
p <- p + ggtitle(expression(atop(paste(plot.title), atop(italic(paste(plot.subtitle)), ""))))
Run Code Online (Sandbox Code Playgroud)
我想如何正确添加动态字幕的问题,使用这个想法归结为:是否有可能在表达式和顶部使用字符变量?
我想读取filein.txt(制表符分隔)并输出一个fileout.txt,其中只有与给定列的值匹配的行,并删除要查询的列.即
filein.txt
#name\thouse\taddress
roger\tvictorian\t223 dolan st.
maggie\tfrench\t12 alameda ave.
kingston\tvictorian\t224 house st.
robert\tamerican\t22 dolan st.
Run Code Online (Sandbox Code Playgroud)
让我们说我只想选择房屋victorian风格的行,那么我的fileout.txt应该是这样的:
fileout.txt
#name\taddress
roger\t223 dolan st.
kingston\t224 house st.
Run Code Online (Sandbox Code Playgroud) 我有C++代码,它依赖于boost和其他库,因此这段代码有一个调用boost的makefile.
我现在正在尝试开始在linux中的代码块中开发此代码,所以为了做到这一点,我有两个基本问题:
(1)如何将代码作为代码块导入新项目?这似乎是一个很好的rec:http://www.programmingforums.org/thread44976.html
(2)如何使用代码块调用makefile,而不是尝试编译代码的代码块(由于代码块不知道它需要调用boost,因此会失败).
我有一个很大的代码,聚合步骤是速度方面的当前瓶颈.
在我的代码中,我想加快数据分组步骤的速度.我的数据的SNOTE(简单非平凡示例)如下所示:
library(data.table)
a = sample(1:10000000, 50000000, replace = TRUE)
b = sample(c("3m","2m2d2m","3m2d1i3s2d","5m","4m","9m","1m"), 50000000, replace = TRUE)
d = sample(c("3m","2m2d2m","3m2d1i3s2d","5m","4m","9m","1m"), 50000000, replace = TRUE)
e = a
dt = data.table(a = a, b = b, d = d, e = e)
system.time(c.dt <- dt[,list(b = paste(b, collapse=""), d = paste(d, collapse=""), e = e[1], by=a)])
user system elapsed
60.107 3.143 63.534
Run Code Online (Sandbox Code Playgroud)
这对于如此大的数据示例来说非常快,但在我的情况下,我仍在寻找进一步的加速.在我的情况下,我有多个核心,所以我几乎肯定必须有一种方法来使用这种计算能力.
我愿意将我的数据类型更改为data.frame或idata.frame对象(理论上,idata.frame应该比data.frames更快).
我做了一些研究,看起来plyr软件包有一些并行功能可能会有所帮助,但我仍然在努力研究如何为我正在尝试的分组做这件事.在另一篇SO帖子中,他们讨论了一些这些想法.由于它使用了foreach函数,我仍然不确定我在这个并行化方面取得了多少成就.根据我的经验,foreach函数对于数百万的快速操作来说并不是一个好主意,因为核心之间的通信工作最终会减慢并行化工作的速度.
我想做一个列表的随机随机但有一个条件:一个元素在shuffle之后永远不会处于相同的原始位置.
有没有一种方法可以在python中为列表执行此操作?
例:
list_ex = [1,2,3]
Run Code Online (Sandbox Code Playgroud)
以下每个混洗列表应该在shuffle之后具有相同的采样概率:
list_ex_shuffled = [2,3,1]
list_ex_shuffled = [3,1,2]
Run Code Online (Sandbox Code Playgroud)
但是不允许排列[1,2,3],[1,3,2],[2,1,3]和[3,2,1],因为它们都重复了一个元素位置.
注意:list_ex中的每个元素都是唯一的id.不允许重复相同的元素.
有任何想法吗?谢谢!
我在R中有一个数据框,定义如下:
数据框:
col 1 col 2 col 3 col4
200 AIG 8.5 12
800 AIG 8.1 20.1
500 A1B 20 50.5
800 A1B 12 30
120 A2M 1.6 8.5
dat <- structure(list(col1 = c(200, 800, 500, 800, 120), col2 = structure(c(3L,
3L, 1L, 1L, 2L), .Label = c("A1B", "A2M", "AIG"), class = "factor"),
col3 = c(8.5, 8.1, 20, 12, 1.6), col4 = c(12, 20.1, 50.5,
30, 8.5)), .Names = c("col1", "col2", "col3", "col4"), …Run Code Online (Sandbox Code Playgroud) 我在R中使用fread函数将文件读取到data.tables对象.
但是,在阅读文件时,我想跳过以#开头的行,这可能吗?我在fread文档中找不到任何提及.