小编Pat*_*thy的帖子

如何为离散值生成有意义的绘图员/关联图

我最喜欢的探索性分析工具之一是pairs(),在有限数量的离散值的情况下,它会因为点完全对齐而下降.考虑以下:

y <- t(rmultinom(n=1000,size=4,prob=rep(.25,4)))
pairs(y)
Run Code Online (Sandbox Code Playgroud)

它并没有真正给出良好的相关性.会有另一种情节风格吗?

analytics r correlation

5
推荐指数
1
解决办法
2076
查看次数

Spark 3.0.0 创建 SparkSession 时出错:pyspark.sql.utils.IllegalArgumentException:&lt;异常 str() 失败&gt;

我正在尝试使用 Hadoop 2.7.3 和 Hive 1.2.1 为我的 Yarn 集群构建 Spark 3.0.0。我下载了源代码并创建了一个可运行的 dist

./dev/make-distribution.sh --name custom-spark --pip --r --tgz -Psparkr -Phive-1.2 -Phadoop-2.7 -Pyarn

我们在生产中运行 Spark 2.4.0,因此我从那里复制了 hive-site.xml、spark-env.sh 和 Spark-defaults.conf。

当我尝试在普通的 Python REPL 中创建 SparkSession 时,出现以下无信息错误。我该如何调试这个?我可以运行 Spark-shell 并通过 Hive 访问进入 scala 提示符,似乎没有错误。

Python 3.6.3 (default, Apr 10 2018, 16:07:04)
[GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import os
>>> import sys
>>> os.environ['SPARK_HOME'] = '/home/pmccarthy/custom-spark-3'
>>> sys.path.insert(0,os.path.join(os.environ['SPARK_HOME'],'python','lib','py4j-src.zip'))
>>> sys.path.append(os.path.join(os.environ['SPARK_HOME'],'python'))
>>> import …
Run Code Online (Sandbox Code Playgroud)

python hive apache-spark pyspark

5
推荐指数
1
解决办法
5533
查看次数

编织和缠结代码而不执行

我正在尝试将一个非常关键的数据库接口脚本转换为 R markdown 以用于文档目的,目的是然后缠结该文件以生成进入我的 crontab 的 R 代码。然而,我发现如果我设置eval=T然后编织文件会运行代码(我不希望意外发生),如果我设置eval=F然后缠结文件会生成所有注释的代码。

有没有一种安全的方法来生成一个文件,该文件与可运行的代码纠缠在一起,而不会冒执行的风险?我想我eval=F每次都可以找到/替换,但这看起来不优雅。

r knitr

3
推荐指数
1
解决办法
2749
查看次数

在 django 中选择所有具有最新时间戳的内容?

这似乎应该很明显,但我无法让它工作。

我正在使用 django 查询一个简单的表,其中定期插入一堆数据。我想写一个视图,只提取具有最新时间戳的数据,例如

select * from mytable
where event_time = (
    select max(event_time) from mytable);
Run Code Online (Sandbox Code Playgroud)

什么是正确的语法?

python mysql django

2
推荐指数
1
解决办法
2364
查看次数

如何按组获取具有最早时间戳的数据帧的行?

df <- data.frame(group=c(1,2,4,2,1,4,2,3,3),
             ts=c("2014-02-13","2014-06-01","2014-02-14","2014-02-11","2013-02-01","2014-02-02","2014-03-21","2014-12-01","2014-02-11"),
             letter=letters[1:9])
df$ts <- as.Date(df$ts,format='%Y-%m-%d')
Run Code Online (Sandbox Code Playgroud)

我想找到一个能够生成包含每组最小时间戳的完整行的操作,在本例中,

group         ts letter
    1 2013-02-01      e
    4 2014-02-02      f
    2 2014-02-11      d
    3 2014-02-11      i
Run Code Online (Sandbox Code Playgroud)

一个快速而肮脏(且缓慢)的基础 R 解决方案是

dfo <- data.frame(df[order(df$ts,decreasing=F),],index=seq(1:nrow(df)))
mins <- tapply(dfo$index,dfo$group,min)
dfo[dfo$index %in% mins,]
Run Code Online (Sandbox Code Playgroud)

直观上,我认为如果有一种方法可以按组添加订单索引,那么我可以过滤到该列的值为 1 的位置,但我不确定如何在没有大量子集和重新连接的情况下执行它。

r dplyr

1
推荐指数
1
解决办法
1565
查看次数

标签 统计

r ×3

python ×2

analytics ×1

apache-spark ×1

correlation ×1

django ×1

dplyr ×1

hive ×1

knitr ×1

mysql ×1

pyspark ×1