假设我太快地将存储放入 git 中并且没有提供信息丰富的存储消息。我想修改存储中的消息,但无法从 git 文档中找到执行此操作的方法。我可以使存储库达到干净状态,然后弹出存储并重新应用 w/git stash save“我的保存消息”,但想知道是否有人有解决方案来修改消息。
假设,按照AWS 文档,我想使用卸载命令,如
unload
(
'SELECT *
FROM table_name
WHERE day = '2019-01-01'
')
to 's3://bucket_name/path'
iam_role 'arn:aws:iam::<aws acct num>:role/<redshift role>'
ADDQUOTES
ESCAPE
DELIMITER ','
GZIP
ALLOWOVERWRITE;
Run Code Online (Sandbox Code Playgroud)
问题是完整查询应该被引用,并且在完整查询(作为有效的 sql)完成之前将字符串文字写入查询将转义字符串。如何在 AWS redshift 卸载语句中转义引号?
完全公开,我知道一种方法来做到这一点,但还没有看到一个好的链接或 SO 问题,所以我想我会为了其他人的利益发布一个。
寻找一种简单/容易的方法来获取 scala 中的当前日期。
我可以使用以下方法得到这个:
import java.time.LocalDate
val now = LocalDate.now()
Run Code Online (Sandbox Code Playgroud)
但我不知道是否有一种特定于 scala 的实现比 LocalDate 更好。
我在EMR上使用Spark.我启动了一个集群,有时集群很小(编写/测试代码时),例如5-10个实例.其他时候使用大量实例执行相同的代码说30-50.
我知道我可以访问配置以帮助设置分区数量,选择大量分区有助于运行时.
我想根据执行程序数和线程数来参数化分区数:
val instanceCount = sc.getConf.get("spark.executor.instances").toDouble
val coreCount = sc.getConf.get("spark.executor.cores").toDouble
Run Code Online (Sandbox Code Playgroud)
有没有人研究过这个问题并且可以提供一些关于参数化分区数量的好方法的建议?
我意识到没有一个好的答案,但有一些功能形式,常量会有所帮助.例如:
val partitionCount = instanceCount*coreCount*0.7
Run Code Online (Sandbox Code Playgroud)
似乎在我的用例中运行良好,并描述了有用的用例(执行程序的数量/范围).
在答案中,如果您可以指出您的工作范围,那也将有所帮助.如果对某个地方进行规范调查,指向该指针会有所帮助.
scala scalability amazon-web-services amazon-emr apache-spark