我是新来的,所以请原谅我提出一个基本问题.我正在尝试将我的tsv文件导入spark,但我不确定它是否正常工作.
val lines = sc.textFile("/home/cloudera/Desktop/Test/test.tsv
val split_lines = lines.map(_.split("\t"))
split_lines.first()
Run Code Online (Sandbox Code Playgroud)
一切似乎都很好.有没有办法我可以看到tsv文件是否已正确加载?
示例数据:(全部使用制表符作为空格)
hastag 200904 24 blackcat
hastag 200908 1 oaddisco
hastag 200904 1 blah
hastag 200910 3 mydda
Run Code Online (Sandbox Code Playgroud) 我在获得百分比方面遇到了一些麻烦.
colA | cloB | colC
4 | a | y
5 | b | y
7 | a | n
8 | a | y
------------------
Output:
a 67%
b 100%
Run Code Online (Sandbox Code Playgroud)
我必须得到colB中每个字母的colC百分比(所有'y').
我已经能够得到两个总数,但似乎无法让百分比发挥作用.
获取a,b(colB)的总'y';
SELECT colB, COUNT(*) FROM tbl WHERE colC = '"y"' GROUP BY colB;
Output:
a 2
b 1
Run Code Online (Sandbox Code Playgroud)
获取colB的总计总计
SELECT COUNT(colC) FROM tbl WHERE colC = '"y"';
Output:
4
Run Code Online (Sandbox Code Playgroud)
提前致谢