小编mit*_*hus的帖子

最常见的大小为k的子集

假设您有一个S1,...,Sn整数范围的子集列表R={1,2,...,N}和一个整数k.有没有找到一个子集的有效途径CR大小k,从而C是的最大的一个子集Si

举个例子,让R={1,2,3,4}k=2

S1={1,2,3}
S2={1,2,3}
S3={1,2,4}
S4={1,3,4}
Run Code Online (Sandbox Code Playgroud)

然后我想要返回C={1,2}C={1,3}(并不重要).

algorithm combinatorics

6
推荐指数
1
解决办法
1304
查看次数

有没有办法将python代码合并到moinmoin页面?

我想知道是否有一个技巧(轻松)将一些python代码合并到moinmoin页面中,可能通过添加一些操作.这个想法就是这样的

<<<
for j in [1,3,5]:
   print(i)
>>>
Run Code Online (Sandbox Code Playgroud)

在页面上显示为

1
3
5
Run Code Online (Sandbox Code Playgroud)

快速和肮脏是好的,安全不是一个问题,我想这是一个独立的" 桌面模式 "安装.

python moinmoin

5
推荐指数
2
解决办法
585
查看次数

哪种数据结构用于"动态"优先级排队?

我正在寻找一种数据结构来支持一种高级优先级排队.这个想法如下.我需要按顺序处理多个项目,并且在任何给定的时间点我都知道下一个要做的"最佳"项目(基于某个度量标准).问题是,处理项目会更改其他几个项目的度量标准,因此静态队列不会起作用.

在我的问题中,我知道哪些项目需要更新其优先级,因此我正在寻找的数据结构应该有方法

  • 入队(项目,优先权)
  • 出队()
  • requeue(item,new_priority)

理想情况下,我想在O(log n)时间内重新排队.有任何想法吗?

priority-queue data-structures

5
推荐指数
1
解决办法
1713
查看次数

小平面标签涉及希腊符号

假设我有如下数据和图:

mydata = data.frame(x=rnorm(4), y=runif(4), tau=c(0,0,1,1))
ggplot(mydata) + geom_point(aes(x=x, y=y)) + facet_wrap(~ tau)
Run Code Online (Sandbox Code Playgroud)

我希望facet标签分别读作"tau = 0"和"tau = 1",并将tau格式化为希腊符号.我从另一个问题中得知,使用贴标机label_parsed将自己格式化字母tau,但等号似乎使事情变得复杂.一个理想的解决方案不需要我更改数据(即使tau成为一个因素并命名其级别),但我将采取任何有效的工作:)

r ggplot2

5
推荐指数
1
解决办法
2737
查看次数

Scala中的惯用(功能)文件处理管道

我想获得一个优雅的管道,用于将文本输入转换为json输出.流程应该是这样的:

(input file)              // concatenated htmls and url
Collection[String]        // unit: line
Collection[String,String] // unit: url, html doc
Collection[MyObj]         // unit: parsed MyObj
(output file)             // json representation of parsed objects
Run Code Online (Sandbox Code Playgroud)

目前我使用嵌套for循环来做这个,但我想用更实用的风格来编写它.有没有一种标准的方法,或者我应该看一下典型的库?注意:数据相当大,所以我不能完全在内存中.

scala

5
推荐指数
1
解决办法
214
查看次数

从mapValues或flatMapValues访问键?

在Spark 1.3中,有没有办法从中访问密钥mapValues

具体来说,如果我有

val y = x.groupBy(someKey)
val z = y.mapValues(someFun)
Run Code Online (Sandbox Code Playgroud)

可以someFun知道它目前在哪个关键操作?

或者我必须这样做

val y = x.map(r => (someKey(r), r)).groupBy(_._1)
val z = y.mapValues{ case (k, r) => someFun(r, k) }
Run Code Online (Sandbox Code Playgroud)

注意:我想使用mapValues而不是map保留分区的原因.

scala apache-spark

5
推荐指数
2
解决办法
1485
查看次数

从d_ply中访问分组变量

我刚刚发现了这个伟大的plyr包装并且正在接受它.

我有一个问题如下:是否有一些方法可以从内部访问分组变量d_ply

说我有一个数据帧df的柱子x,y,z,我想画出每个zxy.如果我执行以下操作:

plotxy = function(df, ...) {plot(df$x, df$y, ...)}
d_ply(df, .(z), plotxy(df, main=.(z)))
Run Code Online (Sandbox Code Playgroud)

然后显示在图上的标题都是"z",而不是z变量的值.有没有办法从内部访问这些值d_ply

编辑:正如@Justin指出的那样,上面的表述是错误的,因为我正在将整个过程传递dfplotxy.因此这条线

d_ply(df, .(z), plotxy(df, main=.(z)))
Run Code Online (Sandbox Code Playgroud)

应该

d_ply(df, .(z), plotxy, main=.(z))
Run Code Online (Sandbox Code Playgroud)

为了理解我原来的问题(我猜这也是@joran所暗示的).

但是,我意识到了别的.即使df沿着被剪切zd_ply,子非数据帧,该函数接收仍然有z柱-简单地总是相同的值.因此,问题显然可以解决如下:

plotxy = function(df, ...) {plot(df$x, df$y, main=df$z[1])}
d_ply(df, .(z), plotxy)
Run Code Online (Sandbox Code Playgroud)

r plyr

3
推荐指数
1
解决办法
617
查看次数

scalaz-stream的膨胀的用法示例

在以下用法示例中scalaz-stream(取自文档),如果输入和/或输出是gzip压缩文件,我需要更改什么?换句话说,我该如何使用compress

import scalaz.stream._
import scalaz.concurrent.Task

val converter: Task[Unit] =
  io.linesR("testdata/fahrenheit.txt")
    .filter(s => !s.trim.isEmpty && !s.startsWith("//"))
    .map(line => fahrenheitToCelsius(line.toDouble).toString)
    .intersperse("\n")
    .pipe(text.utf8Encode)
    .to(io.fileChunkW("testdata/celsius.txt"))
    .run

// at the end of the universe...
val u: Unit = converter.run
Run Code Online (Sandbox Code Playgroud)

scala scalaz-stream

3
推荐指数
1
解决办法
275
查看次数

使用布隆过滤器减少

我希望得到一个快速近似集合成员资格,基于应用于字符串向量的大型Spark RDD(~1B记录)的字符串值函数.基本上,这个想法是减少到Bloom过滤器.然后可以将该布隆过滤器广播给工人以供进一步使用.

更具体地说,我目前有

rdd: RDD[Vector[String]]
f: Vector[String] => String
val uniqueVals = rdd.map(f).distinct().collect()
val uv = sc.broadcast(uniqueVals)
Run Code Online (Sandbox Code Playgroud)

但是uniqueVals太大而不实用,我想用更小(和已知)尺寸的东西替换它,即布隆过滤器.

我的问题:

  • 是否可以减少到Bloom过滤器,或者我必须先收集,然后在驱动程序中构建它?

  • 是否有适合这种情况的成熟的Scala/Java Bloom过滤器实现?

scala bloom-filter apache-spark

3
推荐指数
1
解决办法
3711
查看次数

在 Scala REPL 中访问包私有方法

假设我有一个private[stuff]方法Stuff.somethingorg.my.stuff。有什么我可以在 Scala REPL 中做的事情,这样我就可以调用Stuff.something而不会出错error: value something is not a member of org.my.stuff.Stuff

特别是,我能否让 REPL 位于给定包的“内部”(此处org.my.stuff),从而可以访问其私有成员?

scala private read-eval-print-loop

2
推荐指数
1
解决办法
1859
查看次数