小编Ale*_*thy的帖子

如何将目录文件列表存储到数组中？

我正在尝试将文件列表存储到一个数组中,然后再次遍历该数组.下面是我ls -ls从控制台运行命令时得到的内容.

total 40
36 -rwxrwxr-x 1 amit amit 36720 2012-03-31 12:19 1.txt
4 -rwxrwxr-x 1 amit amit  1318 2012-03-31 14:49 2.txt

Run Code Online (Sandbox Code Playgroud)

我写的以下bash脚本将上述数据存储到bash数组中.

i=0
ls -ls | while read line
do
    array[ $i ]="$line"        
    (( i++ ))
done

Run Code Online (Sandbox Code Playgroud)

但是当我echo $array,我什么都没得到!

仅供参考,我这样运行脚本: ./bashscript.sh

bash shell

cod*_*mer

2016 05-19

40
推荐指数

4
解决办法

10万
查看次数

在Hive中删除具有相同前缀的多个表

我在hive中有几个表具有相同的前缀,如下所示.

temp_table_name
temp_table_add
temp_table_area

Run Code Online (Sandbox Code Playgroud)

在我的数据库中有几百个像这样的表以及许多其他表.我想删除以"temp_table"开头的表.你们中的任何人都知道任何可以在Hive中执行此操作的查询吗？

hadoop hive hiveql

Ale*_*thy

lucky-day

13
推荐指数

3
解决办法

2万
查看次数

如何从HBase中的一个特定行和列获取多个版本

众所周知,hbase具有一个特定行和特定列可以按时间戳记录最近更改值的功能.所以我的问题是,如何使用任何HBase命令列出所有更改的值？我google了很多,但没有找到任何有用的链接.

hbase

mlz*_*boy

2016 11-24

10
推荐指数

3
解决办法

2万
查看次数

是否可以通过编写单独的 mapreduce 程序来并行执行 Hive 查询？

我问了一些关于提高 Hive 查询性能的问题。一些答案与映射器和化简器的数量有关。我尝试了多个映射器和化简器，但在执行过程中没有发现任何差异。不知道为什么，可能是我没有以正确的方式去做，或者我错过了别的东西。

我想知道是否可以并行执行 Hive 查询？我的意思是，通常查询在队列中执行。例如：query1

查询2

查询3

. . . n

执行时间太长，我想减少执行时间。

我需要知道我们是否在 Hive JDBC 程序中使用 mapreduce 程序，那么是否可以并行执行它？不知道这是否可行，但这是我要实现的目标？

我在下面恢复我的问题：

1) 如果可以并行运行多个 Hive 查询，是否需要多个 Hive Thrift Server？

2) 是否可以打开多个 Hive Thrift 服务器？

3）我认为不可能在同一个端口上打开多个 Hive Thrift Server？

4) 我们可以在不同的端口上打开多个 Hive Thrift Server 吗？

请为此建议我一些解决方案。如果您有任何其他选择，我也会尝试。

hive mapreduce

Bha*_*hah

2017 02-24

6
推荐指数

1
解决办法

4874
查看次数

如何使用oozie检查文件是否存在于HDFS位置？

如何使用 Oozie 检查 HDFS 位置中的文件是否存在？

在我的 HDFS 位置，我test_08_01_2016.csv每天晚上 11 点都会收到这样的文件。

我想在晚上 11.15 之后检查此文件是否存在。我可以使用 Oozie 协调器作业来安排批处理。

但是如何验证文件是否存在于 HDFS 中？

hadoop oozie oozie-coordinator hadoop2 cloudera-cdh

Sai*_*Sai

2018 02-15

6
推荐指数

1
解决办法

4832
查看次数

使用IN子句与PIG FILTER

PIG是否支持IN子句？

filtered = FILTER bba BY reason not in ('a','b','c','d');

Run Code Online (Sandbox Code Playgroud)

或者我应该把它分成多个OR？

谢谢!

apache-pig

hes*_*ese

2017 05-31

5
推荐指数

2
解决办法

2万
查看次数

如何使用 DataFrame API 和 SCALA 在 Spark 中读取固定长度的文件

我有一个固定长度的文件（一个示例如下所示），我想使用 SCALA（不是 python 或 java）在 Spark 中使用 DataFrames API 读取这个文件。使用 DataFrames API 有读取 textFile、json 文件等的方法，但不确定是否有读取固定长度文件的方法。我正在互联网上搜索这个并找到了一个 github链接，但我spark-fixedwidth-assembly-1.0.jar为此目的下载了但是我无法在任何地方找出 jar。我完全迷失在这里，需要您的建议和帮助。Stackoverflow 中有几篇文章，但它们与 Scala 和 DataFrame API 无关。

这是文件

56 apple     TRUE 0.56
45 pear      FALSE1.34
34 raspberry TRUE 2.43
34 plum      TRUE 1.31
53 cherry    TRUE 1.4 
23 orange    FALSE2.34
56 persimmon FALSE23.2

Run Code Online (Sandbox Code Playgroud)

每列的固定宽度为 3, 10, 5, 4

请提出您的意见。

scala apache-spark spark-dataframe

Ale*_*thy

lucky-day

1
推荐指数

1
解决办法

1万
查看次数

如何从bash或sh中的变量中删除最后一行？

我有一个只有几行的变量。我想从变量的内容中删除最后一行。我搜索了互联网，但所有链接都谈到了从文件中删除最后一行。这是我变量的内容

$echo $var
$select key from table_test
UNION ALL
select fob from table_test
UNION ALL
select cal from table_test
UNION ALL
select rot from table_test
UNION ALL
$

Run Code Online (Sandbox Code Playgroud)

我想摆脱仅在最后一行出现的UNION ALL。

bash text-processing

Ale*_*thy

lucky-day

1
推荐指数

1
解决办法

4215
查看次数