小编mrs*_*vas的帖子

在Apache Spark中将Dataframe的列值提取为List

我想将数据帧的字符串列转换为列表.我可以从DataframeAPI 找到的是RDD,所以我尝试先将其转换回RDD,然后将toArray函数应用于RDD.在这种情况下,长度和SQL工作就好了.但是,我从RDD得到的结果在每个元素周围都有方括号[A00001].我想知道是否有适当的方法将列转换为列表或删除方括号的方法.

任何建议,将不胜感激.谢谢!

scala apache-spark apache-spark-sql

SH *_* Y.

2019 10-19

73
推荐指数

4
解决办法

15万
查看次数

Kafka:Consumer API vs Streams API

我最近开始学习Kafka并最终得到这些问题.

Consumer和Stream有什么区别？对我来说,如果任何工具/应用程序消费来自Kafka的消息是Kafka世界中的消费者.
流是如何不同的,因为这也消耗或产生消息给卡夫卡？为什么需要它,因为我们可以使用Consumer API编写我们自己的消费者应用程序并根据需要处理它们或将它们从消费者应用程序发送到Spark？

我对此做了谷歌,但没有得到任何好的答案.对不起,如果这个问题太琐碎了.

apache-kafka kafka-consumer-api apache-kafka-streams

SR *_*han

2018 11-29

65
推荐指数

2
解决办法

2万
查看次数

工人,工人实例和执行者之间的关系是什么？

在Spark Standalone模式下,有主节点和工作节点.

这里有几个问题:

2工作者实例是否意味着一个工作节点有2个工作进程？
每个工作实例是否为特定应用程序(管理存储,任务)或一个工作节点拥有一个执行程序的执行程序？
是否有流程图解释了如何计算spark运行时间？

apache-spark apache-spark-standalone

edw*_*ean

2017 12-07

64
推荐指数

4
解决办法

4万
查看次数

如何删除和更新Hive中的记录

我已经安装了Hadoop,Hive,Hive JD BC.这对我来说运行良好.但我还是有问题.如何使用Hive删除或更新单个记录,因为MySQL的删除或更新命令在配置单元中不起作用.

谢谢

hive> delete from student where id=1;
Usage: delete [FILE|JAR|ARCHIVE] <value> [<value>]*
Query returned non-zero code: 1, cause: null

Run Code Online (Sandbox Code Playgroud)

hadoop hive sql-delete

Cha*_*ngh

2018 10-04

59
推荐指数

6
解决办法

25万
查看次数

我在hive中创建了一个表,我想知道我的表创建在哪个目录中？

我在hive中创建了一个表,我想知道我的表创建在哪个目录中？我想知道这条路......

hive hiveql

Mun*_*yed

2018 11-26

50
推荐指数

6
解决办法

10万
查看次数

ReferenceError:$未定义

我有这个错误消息ReferenceError: $ is not defined
这是我的标题.

<link href="css/global-style.css" rel="stylesheet" type="text/css" media="screen">
<link rel="stylesheet" type="text/css" media="screen" href="css/datepicker3.css">
<script type="text/javascript" src="js/jquery.js"></script>
<script type="text/javascript" src="assets/bootstrap/js/bootstrap.min.js"></script>
<script type="text/javascript" src="js/bootstrap-datepicker.js"></script>

Run Code Online (Sandbox Code Playgroud)

以下是我的JavaScript代码

<script type="text/javascript">
$('#sandbox-container .input-daterange').datepicker({
    startDate: "today",
    calendarWeeks: true,
    todayHighlight: true
});
</script>

Run Code Online (Sandbox Code Playgroud)

以下是HTML

<div class="col-md-12" id="sandbox-container">
    <label>Project Duration</label>
    <div class="input-daterange input-group" id="datepicker">
            <input type="text" class="input-md form-control" name="start" />
            <span class="input-group-addon">to</span>
            <input type="text" class="input-md form-control" name="end" />
    </div>
</div>

Run Code Online (Sandbox Code Playgroud)

我想在输入标签上显示datepicker.
我正在使用Bootstrap V3.1.
我正在使用这个日期选择器

html javascript jquery

Sha*_*hab

2016 02-09

50
推荐指数

4
解决办法

32万
查看次数

如何从Apache Spark访问s3a://文件？

Hadoop 2.6不支持开箱即用的s3a,所以我尝试了一系列解决方案和修复,包括:

部署与hadoop-aws和aws-java-sdk =>无法读取环境变量的凭据将hadoop-aws添加到maven =>各种传递依赖冲突

有没有人成功地使两者都有效？

hadoop amazon-s3 apache-spark

tri*_*oid

2016 11-30

49
推荐指数

5
解决办法

6万
查看次数

Hive:将String转换为Integer

我正在寻找一个内置UDF来将我的hive表中的字符串列的值转换为整数,以便使用SELECT和ORDER BY进行排序.我在语言手册中搜索过但没有用.任何其他建议也欢迎.

string hive user-defined-functions hiveql

Sri*_*vas

2018 11-26

47
推荐指数

2
解决办法

17万
查看次数

Spark分区(ing)如何处理HDFS中的文件？

我正在使用HDFS在集群上使用Apache Spark.据我了解,HDFS正在数据节点上分发文件.因此,如果在文件系统上放置"file.txt",它将被拆分为分区.现在我在打电话

rdd = SparkContext().textFile("hdfs://.../file.txt")

Run Code Online (Sandbox Code Playgroud)

来自Apache Spark.rdd现在自动与文件系统上的"file.txt"分区相同吗？我打电话时会发生什么

rdd.repartition(x)

Run Code Online (Sandbox Code Playgroud)

其中x>那么hdfs使用的分区？Spark会在物理上重新排列hdfs上的数据以在本地工作吗？

示例:我在HDFS系统上放置了一个30GB的文本文件,它将它分发到10个节点上.Will Spark a)使用相同的10个分区吗？和b)当我调用重新分区(1000)时,在群集中洗牌30GB？

hdfs apache-spark

Deg*_*get

2017 08-22

47
推荐指数

4
解决办法

3万
查看次数

HDFS上的root scratch dir:/ tmp/hive应该是可写的.当前权限是:rw-rw-rw-(在Windows上)

我在Windows 7上运行Spark.当我使用Hive时,我看到以下错误

The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rw-rw-rw-

Run Code Online (Sandbox Code Playgroud)

权限设置如下

C:\tmp>ls -la
total 20
drwxr-xr-x    1 ADMIN Administ        0 Dec 10 13:06 .
drwxr-xr-x    1 ADMIN Administ    28672 Dec 10 09:53 ..
drwxr-xr-x    2 ADMIN Administ        0 Dec 10 12:22 hive

Run Code Online (Sandbox Code Playgroud)

我已经从Windows-> properties-> security-> Advanced为所有用户设置了"完全控制".

但我仍然看到同样的错误.有什么帮助吗？我查了一堆链接,有人说这是Spark 1.5上的一个错误.这是真的？

谢谢Aarthi

windows hdfs

use*_*205

2017 02-28

43
推荐指数

7
解决办法

4万
查看次数