小编ker*_*att的帖子

删除Linux上的Windows换行符(sed vs. awk)

在字段中间(不是行尾)放置一些带有不正确放置的换行符的分隔文件,在Vim中显示为^ M. 它们源自freebcp(在Centos 6上)导出的MSSQL数据库.以十六进制方式转储数据显示\ r \n模式:

$ xxd test.txt | grep 0d0a
0000190: 3932 3139 322d 3239 3836 0d0a 0d0a 7c43
Run Code Online (Sandbox Code Playgroud)

我可以用awk删除它们,但我无法用sed做同样的事情.

这适用于awk,完全删除换行符:

awk 'gsub(/\r/,""){printf $0;next}{print}'
Run Code Online (Sandbox Code Playgroud)

但这在sed中没有,留下换行:

sed -i 's/\r//g'
Run Code Online (Sandbox Code Playgroud)

这似乎没有效果:

sed -i 's/\r\n//g'
Run Code Online (Sandbox Code Playgroud)

在sed表达式中使用^ M(ctrl + v,ctrl + m)似乎也不起作用.

对于这类任务,sed更容易理解,但我正在努力学习更多两者.我不正确使用sed,还是有限制?

linux awk sed

29
推荐指数
4
解决办法
7万
查看次数

非Windows OLAP桌面客户端?

在主要使用Mac桌面的环境中使用SSAS 2008.使用DbVisualizer和Aqua Data Studio编写关系查询,但需要本机桌面应用程序来编写MDX查询并查看OLAP源的结果.

VMWare/Parallels不是我们需要的方法,在某些情况下使用RDP /终端服务.基于Web的界面适用于最终用户,但BI开发人员更喜欢更方便的东西.

谷歌搜索没有返回太多有用的点击.

任何人都可以推荐用于浏览和查询OLAP源的本机/ Java桌面应用程序吗?

macos olap ssas mdx

7
推荐指数
1
解决办法
3036
查看次数

与具有大量内存的传统系统相比,内存中OLAP有哪些优势?

内存中的OLAP引擎是否具有优于传统OLAP引擎的优势,而传统的OLAP引擎由足够的RAM支持以包含整个多维数据集?

例如,如果我使用MOLAP引擎(SSAS)和RAM/GB/TB,其中整个多维数据集(甚至是星型模式)都是RAM驻留,那么与TM1/SAP HANA相比有什么不同?

olap data-warehouse business-intelligence

7
推荐指数
1
解决办法
495
查看次数

忽略了 JSON 阅读器中的 Spark 采样选项?

在以下两个示例中,运行的任务数和相应的运行时间意味着采样选项无效,因为它们类似于没有任何采样选项的作业运行:

val df = spark.read.options("samplingRatio",0.001).json("s3a://test/*.json.bz2")

val df = spark.read.option("sampleSize",100).json("s3a://test/*.json.bz2")
Run Code Online (Sandbox Code Playgroud)

我知道显式模式最有利于性能,但在方便的情况下采样很有用。

Spark 新手,我是否错误地使用了这些选项?在 PySpark 中尝试了相同的方法,结果相同:

df = spark.read.options(samplingRatio=0.1).json("s3a://test/*.json.bz2")

df = spark.read.options(samplingRatio=None).json("s3a://test/*.json.bz2")
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark

5
推荐指数
1
解决办法
2121
查看次数