小编ds_*_*ser的帖子

将自定义函数应用于数据框的每个子集并生成数据帧

这里可能会多次询问,但由于我的函数返回数据框,因此我无法将其与任何相关联.

我有自定义函数,它构建模型并在一列中输出斜率(coeff2)的数据帧,在另一列中截取(coeff1),在一列中输入记录的数量等.理想情况下,我在函数中构建自己的数据框并从函数中输出.现在我想基于列对我的输入数据框进行子集化并在其上应用我的函数.

示例: -

f.get_reg <- function(df) {
  linear.model <-lm(df$DM ~ df$FW,)
  N <- length(df$DM)
  slope <- coef(linear.model)[2]
  intercept <- coef(linear.model)[1]
  S <- summary(linear.model)$sigma
  df.out <- data.frame (N,slope, intercept, S)
  return (df.out)
}



sample_id     FW       DM  StdDev_DM Median_DM Count  X90 X60 crit Z.scores
     6724 116.39 16.20690    0.9560414   16.0293    60 3.35 3.2  3.2        1
     6724 116.39 16.20690    0.9560414   16.0293    60 3.35 3.2  3.2        1
     6724 110.24 16.73077    0.9560414   16.0293    60 3.35 3.2  3.2        1
     6728 110.24 16.73077    0.9560414   16.0293    60 3.35 …

Run Code Online (Sandbox Code Playgroud)

r plyr tapply dplyr

ds_*_*ser

lucky-day

3
推荐指数

1
解决办法

1700
查看次数

在Spark JDBC中使用谓词读取

我正在将数据从sql服务器拉到hdfs。这是我的摘录，

val predicates = Array[String]("int_id < 500000", "int_id >= 500000 && int_id < 1000000")

  val jdbcDF = spark.read.format("jdbc")
      .option("url", dbUrl)
      .option("databaseName", "DatabaseName")
      .option("dbtable", table)
      .option("user", "***")
      .option("password", "***")
      .option("predicates", predicates)
      .load()

Run Code Online (Sandbox Code Playgroud)

我的Intellij IDE一直在说

“类型不匹配，预期为布尔值或长整型或双精度或字符串，实际：Array [String]”

在谓词中。不知道这怎么了。谁能看到这有什么问题吗？另外，我如何在这里使用提取大小？

谢谢。

hadoop scala jdbc intellij-idea apache-spark

ds_*_*ser

lucky-day

3
推荐指数

1
解决办法

2445
查看次数

问题与shebang python - 找不到导入命令

我想在python中运行一个简单的映射器代码,unix不识别我的shebang行,我在很多论坛中搜索,并建议添加sehbang行并给予该文件的权限.我做了两个,但仍然无法正常工作.它只在我在文件之前添加python时才有效.

hduser@master:~/code$ ls
mapper.py  reducer.py
hduser@master:~/code$ ls -l
total 8
-rwxrwxr-x 1 hduser hduser 225 Sep 16 07:57 mapper.py
-rw-rw-r-- 1 hduser hduser 663 Sep 16 07:56 reducer.py
hduser@master:~/code$ echo "foo foo quux labs foo bar quux" | python /home/hduser/code/mapper.py
foo     1
foo     1
quux    1
labs    1
foo     1
bar     1
quux    1
hduser@master:~/code$ which python
/usr/bin/python
hduser@master:~/code$ echo "foo foo quux labs foo bar quux" | /home/hduser/code/mapper.py
/home/hduser/code/mapper.py: line 5:
Created on 16/09/2014

@author: jee
: No such …

Run Code Online (Sandbox Code Playgroud)

python python-2.7

ds_*_*ser

2014 09-16

2
推荐指数

1
解决办法

1373
查看次数

python 并行化递归

我现在正在处理一个大数据集。我的输入将是 4 个不同的数据集，并且我必须对每个数据集应用特定的函数。所以我所做的就是读取所有四个数据集，并使用 pool.map 将函数并行应用到每个数据集。所以现在我有一个父进程和 4 个子进程。直到这一切都很好。

Q1. 现在每个进程内部发生了什么。在我应用于每个数据集的函数中，我将每个元组与其他元组进行比较，因此它是一种递归。有没有办法使其并行，因为这种比较可能需要很长时间，因为数据集很大。如何制作它，因为它已经是一个子进程？是否可以在子进程中再次并行化它，因为我有更多的处理器，所以我想利用它。

Q2。我对于这个递归任务的并行化的想法是，如果我将元组 x 与元组 y 进行比较（每个元组与所有其他元组），我可以为 x 制作块，每个块与 y 进行比较。我想这可以通过两个“for 循环”来完成。有什么建议如何做到这一点？

python parallel-processing multiprocessing python-3.x python-multiprocessing

ds_*_*ser

2014 09-21

2
推荐指数

1
解决办法

1976
查看次数

在没有证书验证的情况下使用SSL-Oracle SQL Developer

我正在尝试连接到已启用SSL的AWS Postgresql，但我使用了“非验证工厂”参数。通常，当我使用其他客户端执行此操作时，我会指定此参数

ssl=TRUE&sslfactory=org.postgresql.ssl.NonValidatingFactory

Run Code Online (Sandbox Code Playgroud)

但不幸的是，我无法使用Oracle SQL开发人员执行相同的操作。修改主机名以具有这些参数时，我一直收到此错误。--Status : Failure -Test failed: The SSLSocketFactory class provided org.postgresql.ssl.NonValidatingFactory:/ could not be instantiated.

谁能建议该怎么做？

postgresql ssl oracle-sqldeveloper

ds_*_*ser

lucky-day

2
推荐指数

1
解决办法

1352
查看次数

scale_y_continuous 中的动态限制和中断

如何根据我的输入子集在 ggplot 中设置动态限制和中断。我的代码是这样工作的，

Listed %>%
  filter(Listed$Country == 'USA' & Listed$period > max(Listed$period) - months(60)) %>%
  mutate(Months_year = format(as.Date(period), "%b")) %>%
  mutate(fill = ifelse(Months_year %in% past3months,"A","B")) %>%
  ggplot(aes(x = variable, y = value,fill = fill)) + guides(fill=FALSE) +
  geom_bar(stat = "identity") +
  theme_classic() +
  labs(x = "",y="") +
  ggtitle("Newly Listed") + 
  theme(plot.title = element_text(hjust = 0.5,face="bold"))+
  scale_x_date(labels = date_format("%b-%Y"), date_breaks  ="2 month",     
  expand = c(0.005,0)) + 
  scale_y_continuous(limits=c(0,max(Listed$value)), 
                     breaks  = seq(0,max(Listed$value), by = 2000),
  expand = c(0,0))+
  theme(axis.text.x = element_text(angle = 90, …

Run Code Online (Sandbox Code Playgroud)

r ggplot2

ds_*_*ser

2017 05-15

1
推荐指数

1
解决办法

3879
查看次数

使用标题上方的标题将数据写入excel - R

这是我的 excel 输出在一张纸中的样子，

Total Expenses

Region Jan-18 Feb-18 Mar-18 
Reg1   32     65     56
Reg2   24     45     89
Reg3   15     78     23

Average Expenses

Region Jan-18 Feb-18 Mar-18
Reg1    12    14     13
Reg2    13    15     14
Reg3    11    14     12

Run Code Online (Sandbox Code Playgroud)

我使用 rbind 在 R 中构建它，首先添加带有相应数据集的标题，然后添加空行，然后添加数据集。然而，通过这样做，我失去了实际数据的数字性质。我们可以在为我的数字保留数字数据类型的同时做到这一点吗？

注意：以上是要在一张 Excel 中写入的示例数据，同样我正在构建 4 个不同的表作为数据框列表并使用 write.xlsx 输出它们。

ds_*_*ser

lucky-day

1
推荐指数

1
解决办法

1466
查看次数