小编Ank*_*kur的帖子

使用scala在spark中转换数据时,具有相同数量的参数异常的多个构造函数

下面是代码

    def findUniqueGroupInMetadata(sc: SparkContext): Unit = {
    val merchantGroup = sc.cassandraTable("local_pb",     "merchant_metadata").select("group_name")

try {
  val filterByWithGroup = merchantGroup.filter {
    row =>
      row.getStringOption("group_name") match {
        case Some(s: String) if (s != null) => true
        case None => false
      }
  }.map(row => row.getStringOption("group_name").get.capitalize)


  //filterByWithGroup.take(15).foreach(data => println("merchantGroup => " + data))
  filterByWithGroup.saveToCassandra("local_pb", "merchant_group", SomeColumns("group_name"))
} catch {
  case e: Exception => println(e.printStackTrace())

}
Run Code Online (Sandbox Code Playgroud)

}

例外=>

java.lang.IllegalArgumentException: Multiple constructors with the same number of parameters not allowed.
    at com.datastax.spark.connector.util.Reflect$.methodSymbol(Reflect.scala:16)
    at com.datastax.spark.connector.util.ReflectionUtil$.constructorParams(ReflectionUtil.scala:63)
    at com.datastax.spark.connector.mapper.DefaultColumnMapper.<init>(DefaultColumnMapper.scala:45)
    at …
Run Code Online (Sandbox Code Playgroud)

scala cassandra apache-spark

6
推荐指数
1
解决办法
854
查看次数

Git Clone:与github.com:443相关的未知SSL协议错误

我正在尝试在我的办公系统中克隆一个GitHub项目.

set HTTPS_PROXY=http://<UN>:<PWD>@<PROXYSERVER>:<PORT>
set HTTP_PROXY=http://<UN>:<PWD>@<PROXYSERVER>:<PORT>
Run Code Online (Sandbox Code Playgroud)

我设置了HTTPS和HTTP代理也将sslVerify设置为false

[https]
    sslVerify = false
[http]
    sslVerify = false
Run Code Online (Sandbox Code Playgroud)

仍然,我收到"连接到github.com:443的未知SSL协议错误".

有人可以告诉我,我需要做什么?

git github

6
推荐指数
1
解决办法
1万
查看次数

我可以获取 kubernetes pod 中的日志文件吗?

有没有办法获取Kubernetes集群中pod的日志文件?

我知道我可以使用“kubectl exec log -f $POD_NAME”命令获取日志,但我想直接访问日志文件。

kubernetes

5
推荐指数
1
解决办法
9690
查看次数

如何使用scala将一行与spark中的所有其他行进行比较

我在列中有100K +名称.我需要比较它们中的每一个以确定它们是否相同(D'souza,D'souza)或几乎相同(D'Souza,Dsouza).

我尝试将cassandra表读入RDD,并将列的笛卡尔积与其自身形成元组.但由于列大小为100K,这会导致巨大的RDD,最终火花作业就会停止.

以下是我的代码:

    val valueRdd = sc.cassandraTable("keyspace", "some_table")
    val dataRDD = valueRdd
    .map(row => {
      (
        row
          .getStringOption("name")
          .get,

    }).cache()

    val cartesianResult = dataRDD cartesian dataRDD
    //Followed by some compare logic. May be soundex or some other library or some fuzzy logic. 
Run Code Online (Sandbox Code Playgroud)

这里的问题是笛卡尔结果将是100K*100K的量级,这是不理想的.有没有更好的方法来做到这一点?

问题陈述是识别给定数据集中的兄弟.数据集中将包含100K +数据.

scala cassandra apache-spark

1
推荐指数
1
解决办法
1265
查看次数

标签 统计

apache-spark ×2

cassandra ×2

scala ×2

git ×1

github ×1

kubernetes ×1