小编Ell*_*ner的帖子

从`pandas.get_dummies`应用转换到新数据的简单方法?

假设我有一个数据框,data其中包含我想要转换为指标的字符串.我用它pandas.get_dummies(data)来转换为我现在可用于构建模型的数据集.

现在我有一个新的观察,我想通过我的模型.显然我不能使用,pandas.get_dummies(new_data)因为它不包含所有类,也不会生成相同的指标矩阵.有没有办法做到这一点?

python pandas

20
推荐指数
1
解决办法
4277
查看次数

如何在knitr文件中为R包自动创建BibTex引用?

我不确定这是R,LaTeX还是BibTex问题.

我试图自动生成一个包含R包引文的.bib文件,然后在最后列出它们.我能够生成BibTex文件,我没有看到BibTex文件有任何问题,但是在编译PDF时没有出现这些条目.

我不确定R是否正确生成BibTex文件,如果某些LaTeX语法错误,或者BibTex文件是否需要预编译或其他什么.我注意到\bibliography{NOT A REAL FILENAME}会产生一个引用部分而没有抱怨,但我不认为这是问题所在.

最小的工作示例:

\documentclass[10pt]{amsart}
\usepackage[margin=1in, headheight=20pt, footskip=20pt]{geometry}

\begin{document}

<<label='Create References'>>=
require(knitr) # Needed for write_bib()

# Load some packages to the session:
require(xtable)
require(ggplot2)

# Select packages to cite:
citPkgs <- names(sessionInfo()$otherPkgs)
# Write the bibtex file:
write_bib(citPkgs, file="R-Pckgs.bib")
@

\nocite{*}
\bibliographystyle{plain}
\bibliography{R-Pckgs.bib}

\end{document}
Run Code Online (Sandbox Code Playgroud)

任何帮助或建议将不胜感激.

latex r bibtex sweave knitr

17
推荐指数
1
解决办法
3435
查看次数

使用json_populate_recordset而不创建表?

我的数据库中有一个表,其中包含一个包含json记录的列.

id | json_records
---+-------------
 0 | "[{'x1' : 1234, 'x2' : 5678},{'x1' : 2345, 'x2' : 6789}]'
 1 | "[{'x1' : 4321, 'x2' : 8765},{'x1' : 5432, 'x2' : 9876}]'
Run Code Online (Sandbox Code Playgroud)

我想得到这样的东西:

id |   x1 |   x2
---+------+-----
 0 | 1234 | 5678
 0 | 2345 | 6789
 1 | 4321 | 8765
 1 | 5432 | 9876
Run Code Online (Sandbox Code Playgroud)

但我无法让查询工作:

select json_populate_recordset(json_records) from my_table
Run Code Online (Sandbox Code Playgroud)

我用json_populate_recordset看到的几个例子将结果插入表中,但我只是想返回结果.有没有办法在不创建新表的情况下执行此操作?

sql postgresql json

10
推荐指数
1
解决办法
6765
查看次数

检查每个组的列中是否存在值

我很难将我想要做的事情转化为文字,所以搜索也很困难.

基本上我试图查看列中是否存在某个值,按组分区,然后向前传播该值.

在这个例子中,我想检查用户是否已经完成了教程并设置了一个前进的标志.

pk | user | ... | activity
 1 |    A | ... |  "login"
 2 |    A | ... |  "started_tutorial"
 3 |    A | ... |  "completed_tutorial"
 4 |    A | ... |  "some other activity"
 5 |    A | ... |  "logout"
 5 |    B | ... |  "login"
 6 |    B | ... |  "logout"
Run Code Online (Sandbox Code Playgroud)

我认为这应该是这样的

select *,
    check(activity in ('completed_tutorial')) as completed_activity
    from tbl
Run Code Online (Sandbox Code Playgroud)

但我不认为我可以check在select语句中使用,这将是一个常量标志,而不是只有在找到后才设置为true.

我想要得到的例子:

pk | user | ... …
Run Code Online (Sandbox Code Playgroud)

sql postgresql

5
推荐指数
2
解决办法
7491
查看次数

使用实时数据创建闪亮的应用程序

我正在尝试创建一个Shiny应用程序来显示实时收集的数据.为此,我invalidateLater(5000, session)用来定期更新R中的数据.

这是我的server.R文件的大纲:

library(shiny)
library(magrittr)

# Function to get new observations
get_new_data <- function(){
    data <- rnorm(5) %>% rbind %>% data.frame
    return(data)
}

# Initialize my_data
my_data <- get_new_data()

# Function to update my_data
update_data <- function(){
    my_data <- rbind(get_new_data(), my_data)
}

shinyServer(function(input, output, session){

  # Plot the 30 most recent values
  output$first_column <- renderPlot({
    invalidateLater(5000, session)
    update_data()
    plot(X1 ~ 1, data=my_data[1:30,], ylim=c(-3, 3), las=1)
  })

})
Run Code Online (Sandbox Code Playgroud)

我遇到的问题是我想显示N个最近的值,但无法弄清楚如何保留旧值.因此,不是绘制最近的30个值,而是获得1个值的图.

有没有人知道正确的方法来设置一个闪亮的应用程序来更新新数据,同时保持旧的?

r shiny

5
推荐指数
1
解决办法
8720
查看次数

在R中,为什么从NA中减去数字会返回NA但是从NA中减去日期会返回错误?

在R中,如果从NA中减去一个数字,它将返回NA:

> x <- 1
> NA - x
[1] NA
Run Code Online (Sandbox Code Playgroud)

但是,如果您尝试从NA中减去日期,则会返回错误:

> x <- as.Date("2014-04-22")
> NA - x
Error in `-.Date`(NA, x) : can only subtract from "Date" objects
Run Code Online (Sandbox Code Playgroud)

我对R返回错误的原因感兴趣.据我所知,"日期"对象只是与原点的整数差异(默认为1970-01-01)的he表示.

r

4
推荐指数
1
解决办法
917
查看次数

压扁numpy数组还要保持价值位置的指数?

我有几个2D numpy数组(矩阵),每个我想将它转换为包含数组值的向量和包含每个行/列索引的向量.

例如,我可能有这样的数组:

x = np.array([[3, 1, 4],
              [1, 5, 9],
              [2, 6, 5]])
Run Code Online (Sandbox Code Playgroud)

我基本上想要这些价值观

[3, 1, 4, 1, 5, 9, 2, 6, 5]
Run Code Online (Sandbox Code Playgroud)

和他们的立场

[[0,0], [0,1], [0,2], [1,0], [1,1], [1,2], [2,0], [2,1], [2,2]]
Run Code Online (Sandbox Code Playgroud)

我的最终目标是将这些放入pandas DataFrame中,如下所示:

V | x | y
--+---+---
3 | 0 | 0
1 | 0 | 1
4 | 0 | 2
1 | 1 | 0
5 | 1 | 1
9 | 1 | 2
6 | 2 | 0
5 | 2 …
Run Code Online (Sandbox Code Playgroud)

python arrays numpy

4
推荐指数
2
解决办法
1706
查看次数

Julia包数据文件和绝对/相对路径

我正在Julia中创建一个包,并且已经关注了Docs 的Package Development部分.

我的一个函数打开并读入mydata.txt我存储在包目录中的数据文件().

当我从包目录运行Julia时,一切都运行得很好,但是当我运行测试或从不同的目录运行Julia时不是很好,因为它不知道在哪里找到该数据文件.

我以为我可以这样做:

datapath = Pkg.dir("MyPkg") * "/data/"
Run Code Online (Sandbox Code Playgroud)

获取文件的绝对路径,但它似乎仍然无法正常工作.

为包中的数据提供绝对文件路径的正确方法是什么?

julia

2
推荐指数
2
解决办法
1022
查看次数

标签 统计

r ×3

postgresql ×2

python ×2

sql ×2

arrays ×1

bibtex ×1

json ×1

julia ×1

knitr ×1

latex ×1

numpy ×1

pandas ×1

shiny ×1

sweave ×1