小编RSK*_*RSK的帖子

pyspark中的异常值检测

我有一个 pyspark 数据框，如下所示。

+---+-------+--------+
|age|balance|duration|
+---+-------+--------+
|  2|   2143|     261|
| 44|     29|     151|
| 33|      2|      76|
| 50|   1506|      92|
| 33|      1|     198|
| 35|    231|     139|
| 28|    447|     217|
|  2|      2|     380|
| 58|    121|      50|
| 43|    693|      55|
| 41|    270|     222|
| 50|    390|     137|
| 53|      6|     517|
| 58|     71|      71|
| 57|    162|     174|
| 40|    229|     353|
| 45|     13|      98|
| 57|     52|      38|
|  3| …

Run Code Online (Sandbox Code Playgroud)

python-3.x apache-spark pyspark

RSK*_*RSK

2018 10-04

6
推荐指数

1
解决办法

8654
查看次数

R中的行矩阵乘法

我有一个维度为 1 亿条记录和 100 列的矩阵。

现在我想将该矩阵乘以 rowwise。

我的矩阵乘法示例代码是

df<-as.matrix(mtcars)
result<-apply(df,1,prod)

Run Code Online (Sandbox Code Playgroud)

就我而言，上述语法非常慢。

我在Rfast包中尝试了rowprods函数。

result<-rowprods(mtcars)
Run Code Online (Sandbox Code Playgroud)
但是上述功能给了我空间问题。

注意：我的系统中有 8 GB 内存。

r

RSK*_*RSK

2018 03-12

5
推荐指数

1
解决办法

1199
查看次数

如何将 R 的 .rdata 文件加载到 Python 中？

我正在尝试将 R 代码的一部分转换为 Python。在这个过程中，我遇到了一些问题。

我有一个 R 代码，如下所示。在这里，我将 R 输出保存为.rdata格式。

nms <- names(mtcars) save(nms,file="mtcars_nms.rdata")
Run Code Online (Sandbox Code Playgroud)
现在我必须将 mtcars_nms.rdata 加载到 Python 中。我导入了 rpy2 模块。然后我尝试将文件加载到 python 工作区中。但无法看到实际输出。

我使用以下 python 代码导入.rdata。

import pandas as pd from rpy2.robjects import r,pandas2ri pandas2ri.activate() robj = r.load('mtcars_nms.rdata') robj
Run Code Online (Sandbox Code Playgroud)
我的python输出是

R object with classes: ('character',) mapped to: <StrVector - Python:0x000001A5B9E5A288 / R:0x000001A5B9E91678> ['mtcars_nms']
Run Code Online (Sandbox Code Playgroud)
现在我的目标是从 mtcars_nms 中提取信息。

在 R 中，我们可以使用

load("mtcars_nms.rdata"); get('mtcars_nms')
Run Code Online (Sandbox Code Playgroud)
现在我想在 Python 中做同样的事情。

python rpy2 pandas

RSK*_*RSK

2018 08-24

5
推荐指数

1
解决办法

6144
查看次数

基于Python中的开始日期序列复制行

我想通过从开始日期创建n 个日期的序列来复制数据框中的行。

我的输入文件格式。

col1 col2 date 1 5 2015-07-15 2 6 2015-07-20 3 7 2015-07-25
Run Code Online (Sandbox Code Playgroud)
我的预期输出。

col1 col2 date 1 5 2015-07-15 1 5 2015-07-16 1 5 2015-07-17 1 5 2015-07-18 1 5 2015-07-19 2 6 2015-07-20 2 6 2015-07-21 2 6 2015-07-22 2 6 2015-07-23 2 6 2015-07-24 3 7 2015-07-25 3 7 2015-07-26 3 7 2015-07-27 3 7 2015-07-28 3 7 2015-07-29
Run Code Online (Sandbox Code Playgroud)
我必须创建一个有日差的日期序列。

提前致谢。

python pandas

RSK*_*RSK

2019 03-20

2
推荐指数

1
解决办法

842
查看次数

标签统计

pandas ×2

python ×2

apache-spark ×1

pyspark ×1

python-3.x ×1

r ×1

rpy2 ×1

pyspark中的异常值检测

R中的行矩阵乘法

如何将 R 的 .rdata 文件加载到 Python 中？

基于Python中的开始日期序列复制行

标签 统计

小编RSK_RSK的帖子

标签统计