小编mga*_*ido的帖子

Spark:如何获取写入的行数?

我想知道是否有办法知道Spark保存操作写入的行数.我知道在编写之前对RDD进行计数就足够了,但是我想知道是否有办法在没有这样做的情况下获得相同的信息.

谢谢你,马可

apache-spark

8
推荐指数
2
解决办法
6627
查看次数

从Java访问元组的奇怪行为

我正在寻找关于我在Java访问Scala中创建的元组时发现的一种非常奇怪的行为的解释和/或版本控制细节(如果可能).

我将用一个简单的测试来展示这种奇怪的行为.我创建了这个Scala类:

class Foo {
  def intsNullTuple = (null.asInstanceOf[Int], 2)
  def intAndStringNullTuple =  (null.asInstanceOf[Int], "2")
}
Run Code Online (Sandbox Code Playgroud)

然后我运行这个Java程序:

Tuple2<Object, Object> t = (new Foo()).intsNullTuple();
t._1(); // returns 0 !
t._1; // return null
Tuple2<Object, String> t2 = (new Foo()).intAndStringNullTuple();
t._1(); // returns null
t._1; // return null
Run Code Online (Sandbox Code Playgroud)

有没有人对此的原因有任何解释?而且,在我的测试中,我使用的是Java 1.8和Scala 2.11.8.任何人都可以提供有关使用_1Java代码与旧版Scala 2.11和2.10版本以及Java 1.7 的兼容性的任何建议吗?我读过_1Java无法访问,但我可以在测试中访问它.因此,我正在寻找支持它的版本.

谢谢.

java scala tuples

6
推荐指数
1
解决办法
287
查看次数

TCP接收数据包,但忽略它们

我有一个非常奇怪的网络问题.实际的网络配置非常复杂,因为我使用Openstack和Docker来构建虚拟网络.然而,问题不存在,因为我正在我主机的接口上捕获并且我以正确的方式看到所有数据包......但由于某些原因我不知道,似乎TCP忽略了它们,尽管它们有已收到:它不会为它们发送ACK,也不会将数据发送到应用程序.

在我的试验中,我将html页面的HTTP GET请求发送到主机(192.168.4.100)的服务器码头(IP 192.168.4.3).

我在Wireshark的192.168.4.100上看到的是:

192.168.4.100 -> SYN -> 192.168.4.3
192.168.4.3 -> SYN, ACK -> 192.168.4.100
192.168.4.100 -> ACK -> 192.168.4.3

192.168.4.100 -> GET / HTTP/1.1 -> 192.168.4.3
192.168.4.3 -> ACK -> 192.168.4.100
192.168.4.3 -> Fragment 1 of HTTP 200 OK response -> 192.168.4.100
192.168.4.3 -> Fragment 2 of HTTP 200 OK response -> 192.168.4.100
192.168.4.3 -> Fragment 3 of HTTP 200 OK response (PSH) -> 192.168.4.100

192.168.4.3 -> Retransmission of Fragment 3 of HTTP 200 OK response (PSH) -> …
Run Code Online (Sandbox Code Playgroud)

networking tcp http openstack docker

5
推荐指数
1
解决办法
1433
查看次数

SparkSQL:找不到值expr

我在使用Spark SQL构建一个简单的应用程序时遇到了一些问题.我想要做的是添加一个新列到DataFrame.因此,我做了:

val sqlContext=new HiveContext(sc)
import sqlContext._
// creating the DataFrame
correctDF.withColumn("COL1", expr("concat('000',COL1)") )
Run Code Online (Sandbox Code Playgroud)

但是当我用sbt构建它时会抛出异常:

not found: value expr
Run Code Online (Sandbox Code Playgroud)

(还有Eclipse抱怨它)

而在spark-shell它的作品就像一个魅力.

在我的build.sbt文件中,我有:

scalaVersion := "2.10.5"

libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0" % "provided"

libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.6.0" % "provided"

libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.0" % "provided"
Run Code Online (Sandbox Code Playgroud)

我在阅读帖子后添加了最后一行,但没有改变......

有人能帮我吗?

scala sbt apache-spark apache-spark-sql

1
推荐指数
1
解决办法
4334
查看次数