小编mit*_*hus的帖子

最常见的大小为k的子集

假设您有一个S1,...,Sn整数范围的子集列表R={1,2,...,N}和一个整数k.有没有找到一个子集的有效途径C的R大小k,从而C是的最大的一个子集Si？

举个例子,让R={1,2,3,4}和k=2

S1={1,2,3}
S2={1,2,3}
S3={1,2,4}
S4={1,3,4}

Run Code Online (Sandbox Code Playgroud)

然后我想要返回C={1,2}或C={1,3}(并不重要).

algorithm combinatorics

mit*_*hus

lucky-day

6
推荐指数

1
解决办法

1304
查看次数

有没有办法将python代码合并到moinmoin页面？

我想知道是否有一个技巧(轻松)将一些python代码合并到moinmoin页面中,可能通过添加一些操作.这个想法就是这样的

<<<
for j in [1,3,5]:
   print(i)
>>>

Run Code Online (Sandbox Code Playgroud)

在页面上显示为

1
3
5

Run Code Online (Sandbox Code Playgroud)

快速和肮脏是好的,安全不是一个问题,我想这是一个独立的" 桌面模式 "安装.

python moinmoin

mit*_*hus

lucky-day

5
推荐指数

2
解决办法

585
查看次数

哪种数据结构用于"动态"优先级排队？

我正在寻找一种数据结构来支持一种高级优先级排队.这个想法如下.我需要按顺序处理多个项目,并且在任何给定的时间点我都知道下一个要做的"最佳"项目(基于某个度量标准).问题是,处理项目会更改其他几个项目的度量标准,因此静态队列不会起作用.

在我的问题中,我知道哪些项目需要更新其优先级,因此我正在寻找的数据结构应该有方法

入队(项目,优先权)
出队()
requeue(item,new_priority)

理想情况下,我想在O(log n)时间内重新排队.有任何想法吗？

priority-queue data-structures

mit*_*hus

2012 12-28

5
推荐指数

1
解决办法

1713
查看次数

小平面标签涉及希腊符号

假设我有如下数据和图:

mydata = data.frame(x=rnorm(4), y=runif(4), tau=c(0,0,1,1))
ggplot(mydata) + geom_point(aes(x=x, y=y)) + facet_wrap(~ tau)

Run Code Online (Sandbox Code Playgroud)

我希望facet标签分别读作"tau = 0"和"tau = 1",并将tau格式化为希腊符号.我从另一个问题中得知,使用贴标机label_parsed将自己格式化字母tau,但等号似乎使事情变得复杂.一个理想的解决方案不需要我更改数据(即使tau成为一个因素并命名其级别),但我将采取任何有效的工作:)

r ggplot2

mit*_*hus

2017 05-23

5
推荐指数

1
解决办法

2737
查看次数

Scala中的惯用(功能)文件处理管道

我想获得一个优雅的管道,用于将文本输入转换为json输出.流程应该是这样的:

(input file)              // concatenated htmls and url
Collection[String]        // unit: line
Collection[String,String] // unit: url, html doc
Collection[MyObj]         // unit: parsed MyObj
(output file)             // json representation of parsed objects

Run Code Online (Sandbox Code Playgroud)

目前我使用嵌套for循环来做这个,但我想用更实用的风格来编写它.有没有一种标准的方法,或者我应该看一下典型的库？注意:数据相当大,所以我不能完全在内存中.

scala

mit*_*hus

2015 05-03

5
推荐指数

1
解决办法

214
查看次数

从mapValues或flatMapValues访问键？

在Spark 1.3中,有没有办法从中访问密钥mapValues？

具体来说,如果我有

val y = x.groupBy(someKey)
val z = y.mapValues(someFun)

Run Code Online (Sandbox Code Playgroud)

可以someFun知道它目前在哪个关键操作？

或者我必须这样做

val y = x.map(r => (someKey(r), r)).groupBy(_._1)
val z = y.mapValues{ case (k, r) => someFun(r, k) }

Run Code Online (Sandbox Code Playgroud)

注意:我想使用mapValues而不是map保留分区的原因.

scala apache-spark

mit*_*hus

2015 06-15

5
推荐指数

2
解决办法

1485
查看次数

从d_ply中访问分组变量

我刚刚发现了这个伟大的plyr包装并且正在接受它.

我有一个问题如下:是否有一些方法可以从内部访问分组变量d_ply？

说我有一个数据帧df的柱子x,y,z,我想画出每个z值x对y.如果我执行以下操作:

plotxy = function(df, ...) {plot(df$x, df$y, ...)}
d_ply(df, .(z), plotxy(df, main=.(z)))

Run Code Online (Sandbox Code Playgroud)

然后显示在图上的标题都是"z",而不是z变量的值.有没有办法从内部访问这些值d_ply？

编辑:正如@Justin指出的那样,上面的表述是错误的,因为我正在将整个过程传递df给plotxy.因此这条线

d_ply(df, .(z), plotxy(df, main=.(z)))

Run Code Online (Sandbox Code Playgroud)

应该

d_ply(df, .(z), plotxy, main=.(z))

Run Code Online (Sandbox Code Playgroud)

为了理解我原来的问题(我猜这也是@joran所暗示的).

但是,我意识到了别的.即使df沿着被剪切z的d_ply,子非数据帧,该函数接收仍然有z柱-简单地总是相同的值.因此,问题显然可以解决如下:

plotxy = function(df, ...) {plot(df$x, df$y, main=df$z[1])}
d_ply(df, .(z), plotxy)

Run Code Online (Sandbox Code Playgroud)

r plyr

mit*_*hus

2012 05-15

3
推荐指数

1
解决办法

617
查看次数

scalaz-stream的膨胀的用法示例

在以下用法示例中scalaz-stream(取自文档),如果输入和/或输出是gzip压缩文件,我需要更改什么？换句话说,我该如何使用compress？

import scalaz.stream._
import scalaz.concurrent.Task

val converter: Task[Unit] =
  io.linesR("testdata/fahrenheit.txt")
    .filter(s => !s.trim.isEmpty && !s.startsWith("//"))
    .map(line => fahrenheitToCelsius(line.toDouble).toString)
    .intersperse("\n")
    .pipe(text.utf8Encode)
    .to(io.fileChunkW("testdata/celsius.txt"))
    .run

// at the end of the universe...
val u: Unit = converter.run

Run Code Online (Sandbox Code Playgroud)

scala scalaz-stream

mit*_*hus

lucky-day

3
推荐指数

1
解决办法

275
查看次数

使用布隆过滤器减少

我希望得到一个快速近似集合成员资格,基于应用于字符串向量的大型Spark RDD(~1B记录)的字符串值函数.基本上,这个想法是减少到Bloom过滤器.然后可以将该布隆过滤器广播给工人以供进一步使用.

更具体地说,我目前有

rdd: RDD[Vector[String]]
f: Vector[String] => String
val uniqueVals = rdd.map(f).distinct().collect()
val uv = sc.broadcast(uniqueVals)

Run Code Online (Sandbox Code Playgroud)

但是uniqueVals太大而不实用,我想用更小(和已知)尺寸的东西替换它,即布隆过滤器.

我的问题:

是否可以减少到Bloom过滤器,或者我必须先收集,然后在驱动程序中构建它？
是否有适合这种情况的成熟的Scala/Java Bloom过滤器实现？

scala bloom-filter apache-spark

mit*_*hus

2016 05-29

3
推荐指数

1
解决办法

3711
查看次数

在 Scala REPL 中访问包私有方法

假设我有一个private[stuff]方法Stuff.something在org.my.stuff。有什么我可以在 Scala REPL 中做的事情，这样我就可以调用Stuff.something而不会出错error: value something is not a member of org.my.stuff.Stuff？

特别是，我能否让 REPL 位于给定包的“内部”（此处org.my.stuff），从而可以访问其私有成员？

scala private read-eval-print-loop

mit*_*hus

2017 02-06

2
推荐指数

1
解决办法

1859
查看次数