小编use*_*361的帖子

在spark中导入TSV文件

我是新来的,所以请原谅我提出一个基本问题.我正在尝试将我的tsv文件导入spark,但我不确定它是否正常工作.

val lines = sc.textFile("/home/cloudera/Desktop/Test/test.tsv
val split_lines = lines.map(_.split("\t"))
split_lines.first()
Run Code Online (Sandbox Code Playgroud)

一切似乎都很好.有没有办法我可以看到tsv文件是否已正确加载?

示例数据:(全部使用制表符作为空格)

hastag 200904 24 blackcat
hastag 200908 1 oaddisco
hastag 200904 1 blah
hastag 200910 3 mydda
Run Code Online (Sandbox Code Playgroud)

scala apache-spark

5
推荐指数
1
解决办法
1万
查看次数

计算蜂巢中的百分比

我在获得百分比方面遇到了一些麻烦.

colA | cloB | colC
4    |  a   |  y
5    |  b   |  y
7    |  a   |  n
8    |  a   |  y
------------------
Output:
a 67%
b 100%
Run Code Online (Sandbox Code Playgroud)

我必须得到colB中每个字母的colC百分比(所有'y').

我已经能够得到两个总数,但似乎无法让百分比发挥作用.
获取a,b(colB)的总'y';

SELECT colB, COUNT(*) FROM tbl WHERE colC = '"y"' GROUP BY colB;
Output:
a   2
b   1
Run Code Online (Sandbox Code Playgroud)

获取colB的总计总计

SELECT COUNT(colC) FROM tbl WHERE colC = '"y"';
Output:
4
Run Code Online (Sandbox Code Playgroud)

提前致谢

hadoop percentage hiveql

2
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×1

hadoop ×1

hiveql ×1

percentage ×1

scala ×1