在字段中间(不是行尾)放置一些带有不正确放置的换行符的分隔文件,在Vim中显示为^ M. 它们源自freebcp(在Centos 6上)导出的MSSQL数据库.以十六进制方式转储数据显示\ r \n模式:
$ xxd test.txt | grep 0d0a
0000190: 3932 3139 322d 3239 3836 0d0a 0d0a 7c43
Run Code Online (Sandbox Code Playgroud)
我可以用awk删除它们,但我无法用sed做同样的事情.
这适用于awk,完全删除换行符:
awk 'gsub(/\r/,""){printf $0;next}{print}'
Run Code Online (Sandbox Code Playgroud)
但这在sed中没有,留下换行:
sed -i 's/\r//g'
Run Code Online (Sandbox Code Playgroud)
这似乎没有效果:
sed -i 's/\r\n//g'
Run Code Online (Sandbox Code Playgroud)
在sed表达式中使用^ M(ctrl + v,ctrl + m)似乎也不起作用.
对于这类任务,sed更容易理解,但我正在努力学习更多两者.我不正确使用sed,还是有限制?
在主要使用Mac桌面的环境中使用SSAS 2008.使用DbVisualizer和Aqua Data Studio编写关系查询,但需要本机桌面应用程序来编写MDX查询并查看OLAP源的结果.
VMWare/Parallels不是我们需要的方法,在某些情况下使用RDP /终端服务.基于Web的界面适用于最终用户,但BI开发人员更喜欢更方便的东西.
谷歌搜索没有返回太多有用的点击.
任何人都可以推荐用于浏览和查询OLAP源的本机/ Java桌面应用程序吗?
内存中的OLAP引擎是否具有优于传统OLAP引擎的优势,而传统的OLAP引擎由足够的RAM支持以包含整个多维数据集?
例如,如果我使用MOLAP引擎(SSAS)和RAM/GB/TB,其中整个多维数据集(甚至是星型模式)都是RAM驻留,那么与TM1/SAP HANA相比有什么不同?
在以下两个示例中,运行的任务数和相应的运行时间意味着采样选项无效,因为它们类似于没有任何采样选项的作业运行:
val df = spark.read.options("samplingRatio",0.001).json("s3a://test/*.json.bz2")
val df = spark.read.option("sampleSize",100).json("s3a://test/*.json.bz2")
Run Code Online (Sandbox Code Playgroud)
我知道显式模式最有利于性能,但在方便的情况下采样很有用。
Spark 新手,我是否错误地使用了这些选项?在 PySpark 中尝试了相同的方法,结果相同:
df = spark.read.options(samplingRatio=0.1).json("s3a://test/*.json.bz2")
df = spark.read.options(samplingRatio=None).json("s3a://test/*.json.bz2")
Run Code Online (Sandbox Code Playgroud)