小编Fre*_*man的帖子

如何一次删除hadoop目录中的文件?

我想删除hadoop目录中的所有文件,而不删除目录本身.我尝试过使用rm -r 但它删除了整个目录.

hadoop hdfs

8
推荐指数
2
解决办法
4万
查看次数

在 GET 请求期间使用 Akka HTTP 指令的字符串参数

我已经在 scala 中将方法定义为 getJobByID 和 getJobByName ,现在我可以在 GET 调用期间传递 Id 参数作为

val route = (path("dataSource"/LongNumber) & get){ id =>
  complete(getJobById(id).map(_.asJson))
}
Run Code Online (Sandbox Code Playgroud)

现在我想以类似的方式按名称获取所有作业,但没有找到任何可用于获取作业名称作为参数并使用它来查找所有作业名称的指令。我们有任何解决方案或解决方法吗?

rest scala akka-http

6
推荐指数
1
解决办法
3446
查看次数

火花错误:executor.CoarseGrainedExecutorBackend:收到信号条款

我正在使用以下火花配置

maxCores = 5
 driverMemory=2g
 executorMemory=17g
 executorInstances=100
Run Code Online (Sandbox Code Playgroud)

问题:在 100 个 Executor 中,我的工作最终只有 10 个活动的 executor,但仍有足够的可用内存。即使尝试将执行程序设置为 250,只有 10 个仍然处于活动状态。我要做的就是加载一个多分区配置单元表并对其执行 df.count。

Please help me understanding the issue causing the executors kill
17/12/20 11:08:21 ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
17/12/20 11:08:21 INFO storage.DiskBlockManager: Shutdown hook called
17/12/20 11:08:21 INFO util.ShutdownHookManager: Shutdown hook called
Run Code Online (Sandbox Code Playgroud)

不知道为什么纱线会杀死我的执行者。

scala apache-spark

6
推荐指数
1
解决办法
3万
查看次数

在dataproc上运行Spark-Job时请求不足的身份验证范围

我试图在谷歌数据中心集群上运行spark作业

 gcloud dataproc jobs submit hadoop --cluster <cluster-name> \
--jar file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \
--class org.apache.hadoop.examples.WordCount \
--arg1 \
--arg2 \
Run Code Online (Sandbox Code Playgroud)

但是约伯失误了

 (gcloud.dataproc.jobs.submit.spark) PERMISSION_DENIED: Request had insufficient authentication scopes.
Run Code Online (Sandbox Code Playgroud)

如何添加auth范围来运行JOB?

apache-spark google-cloud-platform google-cloud-dataproc

5
推荐指数
1
解决办法
3816
查看次数

在 Scala 中使用 Akka Http 和 Circe 解码 JSON

我正在尝试创建 Akka Http REST post 端点,将 JSON 对象映射到定义的案例类

import io.circe.Decoder, io.circe.generic.auto._

case class JobEntity(id: Option[Long] = None, name: String, description: String, json_data :java.sql.blob) 
Run Code Online (Sandbox Code Playgroud)

JSON 的类型为

{
 "id": "124",
 "name": "MYJOB",
 "description": "Test Job"
}
Run Code Online (Sandbox Code Playgroud)

现在我想将整个 JSON 映射到“json_data”,作为案例类中定义的 blob

  post {
  entity(as[JobEntity]) { jobEntity: JobEntity =>
    complete(createJob(jobEntity).map(_.asJson))
  }
}
Run Code Online (Sandbox Code Playgroud)

我知道 .map(_.asJson) 会将 json 映射到 JobEntity,如果不是这样,请纠正
我如何将整个 JSON 映射到 json_data。

json scala akka-http circe

5
推荐指数
1
解决办法
5752
查看次数

在Amazon Redshift中附加和覆盖

由于Redshift基于PostgreSQL,它是否可以在从S3复制到redshift时覆盖或附加表中的数据?

我得到的只是使用触发器,但他们不接受任何参数.

所有我需要编写一个脚本,如果数据已经在表中,则该参数将参数设置为yes/no(或类似).

postgresql amazon-s3 amazon-redshift

4
推荐指数
1
解决办法
3086
查看次数

Hdfs 到 s3 Distcp - 访问密钥

为了将文件从 HDFS 复制到 S3 存储桶,我使用了命令

hadoop distcp -Dfs.s3a.access.key=ACCESS_KEY_HERE\
-Dfs.s3a.secret.key=SECRET_KEY_HERE /path/in/hdfs s3a:/BUCKET NAME
Run Code Online (Sandbox Code Playgroud)

但访问密钥和加密密钥在这里是可见的,这是不安全的。有没有任何方法可以从文件提供凭据。我不想编辑配置文件,这是我遇到的方法之一。

hadoop amazon-s3 hdfs distcp

4
推荐指数
1
解决办法
8798
查看次数

使用流查询时出现“连接被拒绝”异常

我正在尝试读取流数据输入,如下所示

object SocketReadExample {

    def main(args: Array[String]): Unit = {

      val sparkSession = SparkSession.builder
        .master("local")
        .appName("example")
        .config("spark.driver.bindAddress", "127.0.0.1")
        .getOrCreate()
      //create stream from socket
      val socketStreamDf = sparkSession.readStream
        .format("socket")
        .option("host", "localhost")
        .option("port", 50050)
        .load()

      val consoleDataFrameWriter = socketStreamDf.writeStream
        .format("console")
        .outputMode(OutputMode.Append())

      val query = consoleDataFrameWriter.start()

      query.awaitTermination()
       }
   }
Run Code Online (Sandbox Code Playgroud)

为此我面临以下错误:

 Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Connection
 refused
 === Streaming Query ===
 Identifier: [id = 2bdde43c-319d-48fc-941a-e8d794294a1d, runId = 8b1fd51e-b610-497b-b903-d66367856302]
 Current Committed Offsets: {}
 Current Available Offsets: {}

 Current State: INITIALIZING
 Thread State: RUNNABLE
    at …
Run Code Online (Sandbox Code Playgroud)

streaming scala apache-spark

3
推荐指数
1
解决办法
2734
查看次数

Akka http -ERROR:如果有效负载大小增加,则子流源不能实现一次以上

我正在使用Akka Http,在这里我将路线定义为

val route = (path(HttpConstants.CreateJob) & post) {
    (entity(as[JobDetailsEntity]) & entity(as[JobEntity])) {
      (jobDetailsEntity: JobDetailsEntity, jobEntity: JobEntity) =>
        val updatedJobEntity = jobEntity.copy(runningSince = DateTime.now().getMillis)
        val updatedJobDetailsEntity = jobDetailsEntity.copy(runningSince = DateTime.now().getMillis).copy(modify_date = DateTime.now().getMillis)
        complete {
          createJobDetails(updatedJobDetailsEntity).map(_.asJson)
          createJob(updatedJobEntity).map(_.asJson)
        }
    }
Run Code Online (Sandbox Code Playgroud)

在这里,我试图在同一POST调用中解组两个实体,当我的json Payload id较小(即几个字节)然后正常工作时,该实体工作,一旦有效负载大小增加,即10-20 kb左右,它将引发错误:

Substream Source cannot be materialized more than once

rest scala akka akka-http

1
推荐指数
1
解决办法
2222
查看次数