小编dve*_*eim的帖子

Spark如何实现排序顺序?

假设我有一个字符串列表.我对它们进行过滤和排序,并将结果收集到驱动程序中.然而,事物是分布式的,每个RDD都有自己原始列表的一部分.那么,Spark如何实现最终排序顺序,它是否合并结果?

sorting apache-spark

14
推荐指数
1
解决办法
6880
查看次数

为什么scala的集合默认不是"视图"?

在某些情况下,在执行map/filter/...之前将'view'应用于集合会降低性能.然而,这些情况(afaik)很少(例如,当存在单个操作时).

但是大部分时间附加'.view'可以通过阻止创建中间集合来提高性能.

那么,为什么'view'默认不适用于集合?我错过了一些隐藏的费用吗?

collections scala

6
推荐指数
1
解决办法
156
查看次数

推荐系统的数据集

我想创建自己的简单推荐系统,关于书籍.但是存在一些问题 - 一个人组织算法训练数据集是不可能的(至少非常困难).

那么,有没有关于人们投票的信息的免费数据集或测验,哪些书籍和他们喜欢多少?

第二个问题是书的参数.对于一些基于项目的预测,实际上必须使用书籍的评级(例如语言,单词的平均长度,段落中的平均单词数,我已经计算了大约30个这样的参数)和它们的权重(例如,书的语言被评级)在1点,平均字长为0.314).那么,有没有准备好的信息呢?

事实上,如果我得到第一个问题的答案,我可以找到第二个问题的解决方案,但我确信,需要的信息存在.

此外,我正在阅读推荐系统手册,它提供了完整的信息(与参考),但很难阅读.在这种情况下你能建议一些额外的书吗?

recommendation-engine data-mining

5
推荐指数
1
解决办法
1万
查看次数

是否为每个隐式类转换创建了新的类实例?

object test extends App {
  implicit class f(i: Int) { println("!!!"); def f = 42 + i }
  1.f
  2.f
  3.f
}
Run Code Online (Sandbox Code Playgroud)

在.class文件中我们看到

public static test$f f(int);
  Code:
     0: getstatic     #16                 // Field test$.MODULE$:Ltest$;
     3: iload_0
     4: invokevirtual #42                 // Method test$.f:(I)Ltest$f;
     7: areturn
Run Code Online (Sandbox Code Playgroud)

所以,看起来有一个静态方法,但这段代码打印"!!!" 跑步时3次.每个隐式类转换都有新的类实例化吗?如果是,为什么?如果不是,为什么"!!!" 打印三次?

scala implicit

2
推荐指数
1
解决办法
270
查看次数