我试图将我的蜂巢表导出为直线蜂巢中的csv.当我运行该命令时,!sql select * from database1 > /user/bob/output.csv它给我语法错误.
我已使用下面的命令成功连接到数据库.查询在控制台上输出正确的结果.
beeline -u 'jdbc:hive2://[databaseaddress]' --outputformat=csv
Run Code Online (Sandbox Code Playgroud)
此外,不清楚文件的最终位置.它应该是hdfs中的文件路径正确吗?
我试图chartSeries在R中的quantmod中绘制两个图表.我在这方面遇到了一些困难.
library(quantmod)
tickers <- c('GLD', 'GDX')
data <- new.env()
getSymbols(tickers, src = 'yahoo', from = '1980-01-01', env = data)
chartSeries(Cl(data$GLD), TA="addTA(Cl(data$GDX), on=1)")
addRSI()
Run Code Online (Sandbox Code Playgroud) 我创建了一个具有以下格式的时间戳列(数据类型为时间戳)的配置单元表:
2017-01-23 21:23:17.261456
但是,当我这样做时。它不能正常工作。它将选择时间戳后的日期。该列应该是字符串还是我使用的查询错误?
select * from example where time_created < '2017-01-01 22:30:57.375117'
Run Code Online (Sandbox Code Playgroud) 我正在阅读一个有很多空格的文件,需要过滤掉空间.之后我们需要将其转换为数据帧.示例输入如下.
2017123 ¦ ¦10¦running¦00000¦111¦-EXAMPLE
Run Code Online (Sandbox Code Playgroud)
我的解决方案是以下函数解析所有空格并修剪文件.
def truncateRDD(fileName : String): RDD[String] = {
val example = sc.textFile(fileName)
example.map(lines => lines.replaceAll("""[\t\p{Zs}]+""", ""))
}
Run Code Online (Sandbox Code Playgroud)
但是,我不确定如何将其纳入数据帧.sc.textFile返回一个RDD[String].我试过了案例类方法,但问题是我们有800字段模式,案例类不能超过22.
我想以某种方式将RDD [String]转换为RDD [Row],以便我可以使用该createDataFrame函数.
val DF = spark.createDataFrame(rowRDD, schema)
Run Code Online (Sandbox Code Playgroud)
有关如何做到这一点的任何建议?
我正在尝试使用lftp将文件从unix(UTF-8)ftp到大型机(gdg).因此,以下命令适用于较小的文件.大型机要求文件处于ascii模式.当文件变大时,我认为ftp被破坏了,lftp中的ascii选项无法正常工作.寻找一些解决方案.
命令:
lftp -c "open -u user,password -p 21 server.example.ORG; site LRECL=10200; put -a /home/user/example_2018-02-01-09-46-05.txt -o \'C00000.000000.0000(+1)\';bye"
Run Code Online (Sandbox Code Playgroud)
错误:
put: cannot seek on data source
Run Code Online (Sandbox Code Playgroud)
问题:大型机空间不足.
解决方案:基于以下答案.我减少了LRECL = 750以节省空间,并且ascii模式能够再次工作.