小编wor*_*tor的帖子

美元符号在scala中做了什么

当我在这里阅读火花源代码时,我看到了类似的代码$(a_variable).这是什么意思？

我在这里复制代码:

  final val blockSize: IntParam = new IntParam(this, "blockSize",
    "Block size for stacking input data in matrices. Data is stacked within partitions." +
      " If block size is more than remaining data in a partition then " +
      "it is adjusted to the size of this data. Recommended size is between 10 and 1000",
    ParamValidators.gt(0))

  /** @group getParam */
  final def getBlockSize: Int = $(blockSize)

Run Code Online (Sandbox Code Playgroud)

scala

wor*_*tor

lucky-day

26
推荐指数

1
解决办法

7573
查看次数

在tmux中按前缀键时给出提示

当我按前缀键Ctrl-btmux没有给我一个提示,它已被按下.

有时我不记得我是否已经按过它.

我可以设置高亮/更改颜色的提示或在状态栏中显示一些特殊符号,以便在按下前缀键时显示我吗？

tmux

wor*_*tor

2018 10-27

22
推荐指数

3
解决办法

5548
查看次数

联合时很多RDD抛出堆栈溢出错误

当我使用"++"来组合大量的RDD时,我得到了错误堆栈溢出错误.

Spark版本1.3.1环境:yarn-client.--driver-memory 8G

RDD的数量超过4000.每个RDD都从大小为1 GB的文本文件中读取.

它以这种方式生成

val collection = (for (
  path <- files
) yield sc.textFile(path)).reduce(_ union _)

Run Code Online (Sandbox Code Playgroud)

files小尺寸时工作正常.而且有错误

错误重演.我猜这是一个被称为太多时间的递归函数？

 Exception at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
    at org.apache.spark.rdd.UnionRDD$$anonfun$1.apply(UnionRDD.scala:66)
    at org.apache.spark.rdd.UnionRDD$$anonfun$1.apply(UnionRDD.scala:66)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:34)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:244)
    at scala.collection.AbstractTraversable.map(Traversable.scala:105)
    at org.apache.spark.rdd.UnionRDD.getPartitions(UnionRDD.scala:66)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:217)
    at org.apache.spark.rdd.UnionRDD$$anonfun$1.apply(UnionRDD.scala:66)
    at org.apache.spark.rdd.UnionRDD$$anonfun$1.apply(UnionRDD.scala:66)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.TraversableLike$$anonfun$map$1.apply(TraversableLike.scala:244)
    at scala.collection.IndexedSeqOptimized$class.foreach(IndexedSeqOptimized.scala:33)
    at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:34)
    at scala.collection.TraversableLike$class.map(TraversableLike.scala:244)
    at scala.collection.AbstractTraversable.map(Traversable.scala:105)
    at org.apache.spark.rdd.UnionRDD.getPartitions(UnionRDD.scala:66)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:219)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:217)
    at scala.Option.getOrElse(Option.scala:120)
  .....

Run Code Online (Sandbox Code Playgroud)

apache-spark rdd

wor*_*tor

2015 05-29

15
推荐指数

1
解决办法

6491
查看次数

什么是spark UI事件时间轴中的调度程序延迟

我正在使用YARN环境运行spark程序,带有选项--master yarn-cluster.

当我打开一个spark应用程序的应用程序主人时,我Scheduler Delay在一个阶段看到了很多.其中一些甚至超过10分钟.我想知道它们是什么以及为什么需要这么长时间？

更新:通常在执行程序真正开始执行任务之前,像aggregateByKey这样的操作会花费更多的时间(即调度程序延迟).为什么？

apache-spark

wor*_*tor

2017 01-15

13
推荐指数

1
解决办法

8887
查看次数

为什么spark执行者会收到SIGTERM？

我正在使用Spark API(Spark核心API,而不是Stream,SQL等)我经常在spark dumped日志中看到这种错误:Spark环境:1.3.1 yarn-client

ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL 15: SIGTERM

Run Code Online (Sandbox Code Playgroud)

谁触发了SIGTERM.YARN,Spark还是我自己？
这个信号会终止Spark Executor吗？如果没有,哇它会影响火花程序.

我按Ctrl + c,但那应该是SIGINT.如果YARN杀死执行者,那将是SIGKILL.

signals apache-spark

wor*_*tor

lucky-day

11
推荐指数

1
解决办法

1万
查看次数

如何在Spark中压缩两个(或更多)DataFrame

我有两个DataFrame a和b. a就好像

Column 1 | Column 2
abc      |  123
cde      |  23

Run Code Online (Sandbox Code Playgroud)

b 就好像

Column 1 
1      
2

Run Code Online (Sandbox Code Playgroud)

我想压缩a和b(甚至更多)DataFrames,它们变成了:

Column 1 | Column 2 | Column 3
abc      |  123     |   1
cde      |  23      |   2

Run Code Online (Sandbox Code Playgroud)

我该怎么做？

scala dataframe apache-spark apache-spark-sql

wor*_*tor

2019 01-08

10
推荐指数

1
解决办法

1万
查看次数

如何限制sql执行时间

有些sql编写得不好.有时,搜索会花费数小时申请.当一个应用程序(可能是一个网站)提交一个运行时间很长的查询时,我必须重新启动mysql.如何在数据库端限制sql查询的执行时间？

mysql sql

wor*_*tor

lucky-day

8
推荐指数

1
解决办法

7624
查看次数

是否可以通过Chrome扩展程序获取mac地址？

我希望我的扩展能够将用户的物理mac地址发送到服务器.

是否可以在Chrome扩展程序中获取客户端mac地址？

google-chrome-extension

wor*_*tor

lucky-day

7
推荐指数

1
解决办法

8380
查看次数

为什么此查询不在postgresql中使用仅索引扫描

我有一个包含16列的表,其中有一个主键和一个用于存储值的列.我想选择某个范围内的所有值.值列(easyid)已编入索引.

create table tb1 (
    id Int primary key,
    easyid Int,
    .....
)
create index i_easyid on tb1 (easyid)

Run Code Online (Sandbox Code Playgroud)

其他信息:postgresql 9.4,没有自动真空.sql就是这样的.

select "easyid" from "tb1" where "easyid" between 12183318 and 82283318

Run Code Online (Sandbox Code Playgroud)

理论上postgresql应该只使用索引扫描i_easyid.~~它仅在范围"easyid" between A and B较小时仅进行索引扫描.当范围很大,即B-A一个相当大的数字时,postgresql使用位图索引扫描i_easyid然后进行位堆扫描tb1.~~

我只说索引扫描与否取决于范围大小是错误的.我尝试了不同参数的相同查询,有时它只是索引扫描,有时它不是.

桌子tb1非常大,高达17G.i_easyid是600MB.

这是sql的解释.我不明白为什么4000行的成本可能超过10秒.

sample_pg=# explain analyze select easyid from tb1 where "easyid" between 152183318 and 152283318;
                                                         QUERY PLAN
----------------------------------------------------------------------------------------------------------------------------
 Bitmap Heap Scan on tb1  (cost=97.70..17227.71 rows=4416 width=4) (actual time=1.155..14346.311 …

Run Code Online (Sandbox Code Playgroud)

sql postgresql

wor*_*tor

2015 04-06

7
推荐指数

1
解决办法

3814
查看次数

无法启动spark-shell

我正在使用Spark 1.4.1.我可以毫无问题地使用spark-submit.但是当我跑的时候~/spark/bin/spark-shell

我得到了下面的错误我已经配置SPARK_HOME和JAVA_HOME.但是,Spark 1.2没关系

15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Failed to initialize compiler: object scala.runtime in compiler mirror not found.
** Note that as of 2.8 scala does not assume use of the java classpath.
** For the old behavior pass -usejavacp to scala, or if using a Settings
** object programatically, settings.usejavacp.value = true.

Failed to initialize compiler: object scala.runtime in compiler …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-1.4

wor*_*tor

lucky-day

7
推荐指数

1
解决办法

6584
查看次数