考虑我有一个已定义的架构,用于在文件夹中加载10个csv文件.有没有办法使用Spark SQL自动加载表.我知道这可以通过为每个文件[下面给出]使用单独的数据帧来执行,但是可以使用单个命令自动执行而不是指向文件我可以指向文件夹吗?
df = sqlContext.read
.format("com.databricks.spark.csv")
.option("header", "true")
.load("../Downloads/2008.csv")
Run Code Online (Sandbox Code Playgroud) 我已经阅读了很多文章,但我似乎没有得到关于什么是大数据的完全清楚的答案.在一个页面中,我看到"任何对您的使用来说更大的数据,都是大数据,即100 MB被认为是您邮箱的大数据,而不是您的硬盘".而另一篇文章说"大数据通常超过1 TB,不同的数量/种类/速度,不能存储在一个系统中".此外,该数据应存储在NOSQL数据库中,其中Hadoop用于转换数据.
此外,我一直在研究解决方案,并想知道我是否可以将其归类为大数据.以下解决方案的片段,
任何帮助将非常感激.谢谢 !
我试图将 select 语句的结果移动到一个新的不存在的表中,但无法弄清楚如何移动。
在 MS SQL 中,我将遵循以下内容,
SELECT * INTO <NON_EXISTING_TABLE> FROM
(
SELECT * FROM TABLE1 A
JOIN TABLE2 B
ON A.DescriptionNo = B.DescriptionNo
WHERE A.DescriptionNo =1) A
Run Code Online (Sandbox Code Playgroud)
当我快速查找时,我只能看到将数据插入现有表的答案,而不能使用该语句的结果动态创建新表。
请指教 !