小编Cau*_*der的帖子

如何在 VS Code 中关闭 .txt 文件的自动完成功能？

我在 VS Code 中有一个 .txt 文件。我用它来输入纯文本。

它建议自动完成。我想为其他文件（例如 Python 文件）保留自动完成功能。

我想在 VS Code 中仅关闭 .txt 文件的自动完成建议。那可能吗？

visual-studio-code

Cau*_*der

2022 02-10

30
推荐指数

1
解决办法

4052
查看次数

R 中对大数据集有哪些有用的优化？

我构建了一个脚本，它适用于小数据集（<1 M 行），但在大数据集上表现很差。我听说数据表比 tibbles 性能更高。除了了解数据表之外，我还有兴趣了解其他速度优化。

我将在脚本中分享几个命令作为示例。在每个示例中，数据集有 10 到 1500 万行和 10 到 15 列。

获取按九个变量分组的数据框的最低日期

      dataframe %>% 
      group_by(key_a, key_b, key_c,
               key_d, key_e, key_f,
               key_g, key_h, key_i) %>%
      summarize(min_date = min(date)) %>% 
      ungroup()

Run Code Online (Sandbox Code Playgroud)

对两个数据框进行左连接以添加额外的列

      merge(dataframe, 
          dataframe_two, 
          by = c("key_a", "key_b", "key_c",
               "key_d", "key_e", "key_f",
               "key_g", "key_h", "key_i"),
          all.x = T) %>% 
      as_tibble()

Run Code Online (Sandbox Code Playgroud)

在最近的日期加入两个数据框

      dataframe %>%
      left_join(dataframe_two, 
                  by = "key_a") %>%
      group_by(key_a, date.x) %>%
      summarise(key_z = key_z[which.min(abs(date.x - date.y))]) %>%
      arrange(date.x) %>%
      rename(day = date.x)

Run Code Online (Sandbox Code Playgroud)

我可以应用哪些最佳实践，特别是我可以做些什么来使这些类型的函数针对大型数据集进行优化？

——

这是一个示例数据集

set.seed(1010)
library("conflicted") …

Run Code Online (Sandbox Code Playgroud)

r dplyr data.table tidyverse

Cau*_*der

2020 09-14

14
推荐指数

2
解决办法

487
查看次数

EIP：超出地址限制

我有一个 CloudFormation 模板，可以为 RStudio Server 启动 EC2 实例。

AWSTemplateFormatVersion: 2010-09-09

Description: Sets up an RStudio and Shiny environment on AWS

Parameters:
  InstanceType:
    Type: String
    Description: Instance type for RStudio. Default is t2.micro.
    AllowedValues:
      - t2.micro
      - t2.small
      - t2.medium
      - t2.large
      - t2.xlarge
      - t2.2xlarge
      - m4.large
      - m4.xlarge
      - m4.2xlarge
      - m4.4xlarge
      - m4.10xlarge
      - m4.16xlarge
      - c4.large
      - c4.xlarge
      - c4.2xlarge
      - c4.4xlarge
      - c4.8xlarge
      - r4.large
      - r4.xlarge
      - r4.2xlarge
      - r4.4xlarge
      - r4.8xlarge
      - r4.16xlarge
      - …

Run Code Online (Sandbox Code Playgroud)

ip amazon-ec2 amazon-web-services

Cau*_*der

lucky-day

10
推荐指数

1
解决办法

2万
查看次数

如何获取 7 天前的日期？

我想制作一个图表来提供上周的数据。

我尝试使用这段代码，但它出错了。

where (time_stamp::date > dateadd(day, -7, now()::date))

Run Code Online (Sandbox Code Playgroud)

我也尝试过

(ud.time_stamp::date between now() and dateadd(day, -7, now()::date))

Run Code Online (Sandbox Code Playgroud)

它给了我这个错误

运行查询时出错：Redshift 表不支持指定的类型或函数（每个 INFO 消息一个）。

sql amazon-web-services amazon-redshift

Cau*_*der

2019 10-29

8
推荐指数

2
解决办法

6987
查看次数

将 Plumbr 与在 Python 脚本中使用 R 制作图表的其他选项进行比较

我计划在 python 脚本中使用 ggplot 制作图表。这些是有关该项目的详细信息：

我有一个在远程机器上运行的脚本，我可以在机器上合理地安装任何东西
该脚本在 python 中运行，并具有我想可视化存储为字典的数据
脚本每天运行，数据始终具有相同的结构

我认为我最好的选择是这样做......

编写一个 R 脚本来获取数据并创建 ggplot 可视化
使用plumbr为我的脚本创建一个 rest API
向其余 API 发送调用并获取我的绘图的 PNG 作为回报

我也熟悉yhat的 ggpy，我什至想知道我是否可以在机器上安装 R，然后直接将代码发送到机器进行处理，而无需 RStudio。

plumbr 会是推荐的和安全的实现吗？

这是一个可重复的例子-

my_data = [{"Chicago": "30"} {"New York": "50"}], [{"Cincinatti": "70"}, {"Green Bay": "95"}] 

**{this is the part that's missing}**

library(ggplot)
my_data %>% ggplot(aes(city_name, value)) + geom_col()

png("my_bar_chart.png", my_data)

Run Code Online (Sandbox Code Playgroud)

python r ggplot2

Cau*_*der

2020 05-12

7
推荐指数

1
解决办法

115
查看次数

由于 SparkContext 关闭，作业 65 被取消

我正在开发一个共享的 Apache Zeppelin 服务器。几乎每天，我尝试运行命令并收到此错误：Job 65 cancelled because SparkContext was shut down

我很想了解有关 SparkContext 关闭原因的更多信息。我的理解是 Zeppelin 是一个 kube 应用程序，它将命令发送到机器进行处理。

当 SparkContext 关闭时，是否意味着我与 Spark 集群的桥接已关闭？而且，如果是这样的话，我怎样才能使火花簇的桥断掉呢？

在此示例中，它发生在我尝试将数据上传到 S3 时。

这是代码

val myfiles = readParquet(
    startDate=ew LocalDate(2020, 4, 1),
    endDate=ew LocalDate(2020, 4, 7)
)

log_events.createOrReplaceTempView("log_events")

val mySQLDF = spark.sql(s"""
    select [6 columns]
    from myfiles 
    join [other table]
    on [join_condition]
"""
)

mySQLDF.write.option("maxRecordsPerFile", 1000000).parquet(path)
// mySQLDF has 3M rows and they're all strings or dates

Run Code Online (Sandbox Code Playgroud)

这是堆栈跟踪错误

org.apache.spark.SparkException: Job aborted.
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:198)
  at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:159)
  at …

Run Code Online (Sandbox Code Playgroud)

hadoop apache-spark apache-spark-sql pyspark apache-zeppelin

Cau*_*der

2020 05-19

7
推荐指数

1
解决办法

8569
查看次数

{{}} 双大括号如何在 dplyr 中工作？

我在RConf 上看到 Hadley 的演讲，他提到在 tidy evals 中使用双括号调用变量。

我搜索了谷歌，但我找不到任何关于何时使用它们的信息。

dplyr 中双括号的用例是什么？

r curly-braces tidyverse rlang

Cau*_*der

2020 09-28

7
推荐指数

1
解决办法

1593
查看次数

使用 Snowflake SQL 填充最新的非 null 值

这是我的值表

id    category   

A     Apple
A     NULL     
A     Apple
B     NULL      
B     Pear
B     Pear
B     Peach
B     NULL
B     NULL
C     NULL
C     NULL
C     Apple

Run Code Online (Sandbox Code Playgroud)

这就是我想要的桌子

id    category   

A     Apple
A     Apple     
A     Apple
B     NULL      
B     Pear
B     Pear
B     Peach
B     Peach
B     Peach
C     NULL
C     NULL
C     Apple

Run Code Online (Sandbox Code Playgroud)

这些是我想要应用的规则；

如果category为空，则用最新的category（对于该id）填充它
如果该 id 没有上述类别的值，则保留为 null

我们可以想象有第三列称为日期，这就是数据排序的依据

我尝试使用first_value()，但类别列为空

我在 Snowflake 实例上使用 SQL

sql snowflake-cloud-data-platform

Cau*_*der

lucky-day

7
推荐指数

2
解决办法

1万
查看次数

如何删除 Firefox 中的 X 按钮？

我转到我的个人资料设置并添加了一个名为“chrome”的文件夹和一个名为userChrome.css.

我添加了这段代码：

@namespace url("http://www.mozilla.org/keymaster/gatekeeper/there.is.only.xul"); /* only needed once */

#tabbrowser-tabs .tabbrowser-tab .tab-close-button { display:none!important; }

Run Code Online (Sandbox Code Playgroud)

我重新启动了 Firefox 实例，它仍然在选项卡中显示 X 关闭按钮。

browser firefox

Cau*_*der

lucky-day

6
推荐指数

1
解决办法

3099
查看次数

如何将参数传递给spark.sql(""" """)？

我想将一个字符串传递给spark.sql

这是我的查询

mydf = spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP BETWEEN '2020-04-01' AND '2020-04-08')

Run Code Online (Sandbox Code Playgroud)

我想传递一个日期字符串。

我试过这段代码

val = '2020-04-08'

s"spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP  BETWEEN $val  AND '2020-04-08'

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark apache-zeppelin

Cau*_*der

lucky-day

6
推荐指数

2
解决办法

3万
查看次数

标签统计

r ×3

amazon-web-services ×2

apache-spark ×2

apache-spark-sql ×2

apache-zeppelin ×2

pyspark ×2

sql ×2

tidyverse ×2

amazon-ec2 ×1

amazon-redshift ×1

browser ×1

curly-braces ×1

data.table ×1

dplyr ×1

firefox ×1

ggplot2 ×1

hadoop ×1

ip ×1

python ×1

rlang ×1

snowflake-cloud-data-platform ×1

visual-studio-code ×1

标签 统计

小编Cau_der的帖子

标签统计