我想删除hadoop目录中的所有文件,而不删除目录本身.我尝试过使用rm -r
但它删除了整个目录.
我已经在 scala 中将方法定义为 getJobByID 和 getJobByName ,现在我可以在 GET 调用期间传递 Id 参数作为
val route = (path("dataSource"/LongNumber) & get){ id =>
complete(getJobById(id).map(_.asJson))
}
Run Code Online (Sandbox Code Playgroud)
现在我想以类似的方式按名称获取所有作业,但没有找到任何可用于获取作业名称作为参数并使用它来查找所有作业名称的指令。我们有任何解决方案或解决方法吗?
我正在使用以下火花配置
maxCores = 5
driverMemory=2g
executorMemory=17g
executorInstances=100
Run Code Online (Sandbox Code Playgroud)
问题:在 100 个 Executor 中,我的工作最终只有 10 个活动的 executor,但仍有足够的可用内存。即使尝试将执行程序设置为 250,只有 10 个仍然处于活动状态。我要做的就是加载一个多分区配置单元表并对其执行 df.count。
Please help me understanding the issue causing the executors kill
17/12/20 11:08:21 ERROR executor.CoarseGrainedExecutorBackend: RECEIVED SIGNAL TERM
17/12/20 11:08:21 INFO storage.DiskBlockManager: Shutdown hook called
17/12/20 11:08:21 INFO util.ShutdownHookManager: Shutdown hook called
Run Code Online (Sandbox Code Playgroud)
不知道为什么纱线会杀死我的执行者。
我试图在谷歌数据中心集群上运行spark作业
gcloud dataproc jobs submit hadoop --cluster <cluster-name> \
--jar file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \
--class org.apache.hadoop.examples.WordCount \
--arg1 \
--arg2 \
Run Code Online (Sandbox Code Playgroud)
但是约伯失误了
(gcloud.dataproc.jobs.submit.spark) PERMISSION_DENIED: Request had insufficient authentication scopes.
Run Code Online (Sandbox Code Playgroud)
如何添加auth范围来运行JOB?
我正在尝试创建 Akka Http REST post 端点,将 JSON 对象映射到定义的案例类
import io.circe.Decoder, io.circe.generic.auto._
case class JobEntity(id: Option[Long] = None, name: String, description: String, json_data :java.sql.blob)
Run Code Online (Sandbox Code Playgroud)
JSON 的类型为
{
"id": "124",
"name": "MYJOB",
"description": "Test Job"
}
Run Code Online (Sandbox Code Playgroud)
现在我想将整个 JSON 映射到“json_data”,作为案例类中定义的 blob
post {
entity(as[JobEntity]) { jobEntity: JobEntity =>
complete(createJob(jobEntity).map(_.asJson))
}
}
Run Code Online (Sandbox Code Playgroud)
我知道 .map(_.asJson) 会将 json 映射到 JobEntity,如果不是这样,请纠正
我如何将整个 JSON 映射到 json_data。
由于Redshift基于PostgreSQL,它是否可以在从S3复制到redshift时覆盖或附加表中的数据?
我得到的只是使用触发器,但他们不接受任何参数.
所有我需要编写一个脚本,如果数据已经在表中,则该参数将参数设置为yes/no(或类似).
为了将文件从 HDFS 复制到 S3 存储桶,我使用了命令
hadoop distcp -Dfs.s3a.access.key=ACCESS_KEY_HERE\
-Dfs.s3a.secret.key=SECRET_KEY_HERE /path/in/hdfs s3a:/BUCKET NAME
Run Code Online (Sandbox Code Playgroud)
但访问密钥和加密密钥在这里是可见的,这是不安全的。有没有任何方法可以从文件提供凭据。我不想编辑配置文件,这是我遇到的方法之一。
我正在尝试读取流数据输入,如下所示
object SocketReadExample {
def main(args: Array[String]): Unit = {
val sparkSession = SparkSession.builder
.master("local")
.appName("example")
.config("spark.driver.bindAddress", "127.0.0.1")
.getOrCreate()
//create stream from socket
val socketStreamDf = sparkSession.readStream
.format("socket")
.option("host", "localhost")
.option("port", 50050)
.load()
val consoleDataFrameWriter = socketStreamDf.writeStream
.format("console")
.outputMode(OutputMode.Append())
val query = consoleDataFrameWriter.start()
query.awaitTermination()
}
}
Run Code Online (Sandbox Code Playgroud)
为此我面临以下错误:
Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Connection
refused
=== Streaming Query ===
Identifier: [id = 2bdde43c-319d-48fc-941a-e8d794294a1d, runId = 8b1fd51e-b610-497b-b903-d66367856302]
Current Committed Offsets: {}
Current Available Offsets: {}
Current State: INITIALIZING
Thread State: RUNNABLE
at …Run Code Online (Sandbox Code Playgroud) 我正在使用Akka Http,在这里我将路线定义为
val route = (path(HttpConstants.CreateJob) & post) {
(entity(as[JobDetailsEntity]) & entity(as[JobEntity])) {
(jobDetailsEntity: JobDetailsEntity, jobEntity: JobEntity) =>
val updatedJobEntity = jobEntity.copy(runningSince = DateTime.now().getMillis)
val updatedJobDetailsEntity = jobDetailsEntity.copy(runningSince = DateTime.now().getMillis).copy(modify_date = DateTime.now().getMillis)
complete {
createJobDetails(updatedJobDetailsEntity).map(_.asJson)
createJob(updatedJobEntity).map(_.asJson)
}
}
Run Code Online (Sandbox Code Playgroud)
在这里,我试图在同一POST调用中解组两个实体,当我的json Payload id较小(即几个字节)然后正常工作时,该实体工作,一旦有效负载大小增加,即10-20 kb左右,它将引发错误:
Substream Source cannot be materialized more than once