小编use*_*361的帖子

我是新来的,所以请原谅我提出一个基本问题.我正在尝试将我的tsv文件导入spark,但我不确定它是否正常工作.

val lines = sc.textFile("/home/cloudera/Desktop/Test/test.tsv
val split_lines = lines.map(_.split("\t"))
split_lines.first()

一切似乎都很好.有没有办法我可以看到tsv文件是否已正确加载？

示例数据:(全部使用制表符作为空格)

hastag 200904 24 blackcat
hastag 200908 1 oaddisco
hastag 200904 1 blah
hastag 200910 3 mydda

5
推荐指数

1
解决办法

1万
查看次数

我在获得百分比方面遇到了一些麻烦.

colA | cloB | colC
4    |  a   |  y
5    |  b   |  y
7    |  a   |  n
8    |  a   |  y
------------------
Output:
a 67%
b 100%

我必须得到colB中每个字母的colC百分比(所有'y').

我已经能够得到两个总数,但似乎无法让百分比发挥作用.
获取a,b(colB)的总'y';

SELECT colB, COUNT(*) FROM tbl WHERE colC = '"y"' GROUP BY colB;
Output:
a   2
b   1

获取colB的总计总计

SELECT COUNT(colC) FROM tbl WHERE colC = '"y"';
Output:
4

提前致谢

2
推荐指数

1
解决办法

1万
查看次数

小编use_361的帖子