小编Che*_*dur的帖子

如何在单个加载中导入多个csv文件?

考虑我有一个已定义的架构,用于在文件夹中加载10个csv文件.有没有办法使用Spark SQL自动加载表.我知道这可以通过为每个文件[下面给出]使用单独的数据帧来执行,但是可以使用单个命令自动执行而不是指向文件我可以指向文件夹吗?

df = sqlContext.read
       .format("com.databricks.spark.csv")
       .option("header", "true")
       .load("../Downloads/2008.csv")
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql spark-dataframe

38
推荐指数
5
解决办法
6万
查看次数

什么是大数据?什么是大数据?

我已经阅读了很多文章,但我似乎没有得到关于什么是大数据的完全清楚的答案.在一个页面中,我看到"任何对您的使用来说更大的数据,都是大数据,即100 MB被认为是您邮箱的大数据,而不是您的硬盘".而另一篇文章说"大数据通常超过1 TB,不同的数量/种类/速度,不能存储在一个系统中".此外,该数据应存储在NOSQL数据库中,其中Hadoop用于转换数据.

此外,我一直在研究解决方案,并想知道我是否可以将其归类为大数据.以下解决方案的片段,

  • 数以百万计的原始数据记录,通常还有500多GB的数据.
  • SQL数据库作为后端和SSIS/SQL查询来清理/处理数据并将其转换为有意义的形式.
  • 使用Spotfire进行可视化

任何帮助将非常感激.谢谢 !

ssis data-mining bigdata

0
推荐指数
2
解决办法
1317
查看次数

SELECT * INTO <不存在的表>- MYSQL

我试图将 select 语句的结果移动到一个新的不存在的表中,但无法弄清楚如何移动。

在 MS SQL 中,我将遵循以下内容,

SELECT * INTO <NON_EXISTING_TABLE> FROM
(
SELECT * FROM TABLE1 A 
JOIN TABLE2 B
ON A.DescriptionNo = B.DescriptionNo 
WHERE A.DescriptionNo =1) A
Run Code Online (Sandbox Code Playgroud)

当我快速查找时,我只能看到将数据插入现有表的答案,而不能使用该语句的结果动态创建新表。

请指教 !

mysql sql

0
推荐指数
1
解决办法
6420
查看次数