小编mch*_*gun的帖子

使用pandoc从Markdown转换为PDF时设置边距大小

我在RStudio中创建了一个RMarkdown文件,并设法用knitr将它编织成HTML和.md文件.接下来,我使用pandoc将.md文件转换为PDF文件(如果我尝试从.html文件转换,我会收到错误).但是,生成的PDF具有巨大的利润(如http://johnmacfarlane.net/pandoc/demo/example13.pdf).如何让pandoc产生边距较小的东西?我查看了pandoc用户指南,但没有找到任何有用的东西.

markdown latex r pandoc knitr

156
推荐指数
2
解决办法
7万
查看次数

从R Markdown和Knitr中删除R输出中的哈希值

我正在使用RStudio来编写我的R Markdown文件.如何删除##代码输出之前显示的最终HTML输出文件中的哈希()?

举个例子:

---
output: html_document
---

```{r}
head(cars)
```
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

knitr r-markdown

50
推荐指数
1
解决办法
2万
查看次数

更快地删除Python中的停用词

我试图从一串文本中删除停用词:

from nltk.corpus import stopwords
text = 'hello bye the the hi'
text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))])
Run Code Online (Sandbox Code Playgroud)

我正在处理6密耳的这种弦,所以速度很重要.分析我的代码,最慢的部分是上面的行,有没有更好的方法来做到这一点?我正在考虑使用像正则表达式这样的东西,re.sub但我不知道如何为一组单词编写模式.有人可以帮助我,我也很高兴听到其他可能更快的方法.

注意:我试过有人建议包装stopwords.words('english'),set()但没有区别.

谢谢.

python regex stop-words

35
推荐指数
4
解决办法
7万
查看次数

read.csv,第一行的标题,跳过第二行

我有一个带有两个标题行的CSV文件,第一行我想成为标题,但第二行我要丢弃.如果我执行以下命令:

data <- read.csv("HK Stocks bbg.csv", header = T, stringsAsFactors = FALSE)
Run Code Online (Sandbox Code Playgroud)

第一行成为标题,文件的第二行成为我数据框的第一行:

  Xaaaaaaaaa       X X.1     Xbbbbbbbbbb     X.2 X.3
1         Date PX_LAST  NA         Date PX_LAST  NA
2   31/12/2002  38.855  NA   31/12/2002  19.547  NA
3   02/01/2003  38.664  NA   02/01/2003  19.547  NA
4   03/01/2003  40.386  NA   03/01/2003  19.547  NA
5   06/01/2003  40.386  NA   06/01/2003  19.609  NA
6   07/01/2003  40.195  NA   07/01/2003  19.609  NA
Run Code Online (Sandbox Code Playgroud)

我想跳过CSV文件的第二行,然后得到

  X1.HK.Equity       X X.1 X2.HK.Equity     X.2 X.3
2   31/12/2002  38.855  NA   31/12/2002  19.547  NA
3   02/01/2003  38.664  NA   02/01/2003 …
Run Code Online (Sandbox Code Playgroud)

r header skip read.csv

29
推荐指数
2
解决办法
4万
查看次数

抑制Knitr/Rmarkdown中的消息

这是我的RMarkdown文件的代码:

```{r echo=FALSE, message=FALSE}
opts_chunk$set(comment = NA, echo=FALSE, message = FALSE, warnings = FALSE)
options("getSymbols.warning4.0"=FALSE)
Sys.setenv(TZ = "GMT")
library(quantmod)
library(xtable)
library(PerformanceAnalytics)
```

```{r}
getSymbols("^RUT")
chart.TimeSeries(RUT)
dev.off()
```
Run Code Online (Sandbox Code Playgroud)

尽管设置message = FALSE, warnings = FALSE,我仍然得到输出消息在HTML文件中,当我运行getSymbols()dev.off().他们各自的产出是:

[1] "RUT"
Run Code Online (Sandbox Code Playgroud)

null device 
          1 
Run Code Online (Sandbox Code Playgroud)

如何抑制这些消息?

r knitr r-markdown

26
推荐指数
3
解决办法
4万
查看次数

通过pip安装gnureadline时出错

我试图升级到IPython 2.0时打破了我的IPython设置.安装时安装失败gnureadline.我原本有这个问题,但我修复了它.现在我收到这个错误:

cc -bundle -undefined dynamic_lookup -arch x86_64 -arch i386 -Wl,-F. -Qunused-arguments -Qunused-arguments build/temp.macosx-10.9-intel-2.7/Modules/2.x/readline.o readline/libreadline.a readline/libhistory.a -lncurses -o build/lib.macosx-10.9-intel-2.7/gnureadline.so

clang: error: no such file or directory: 'readline/libreadline.a'

clang: error: no such file or directory: 'readline/libhistory.a'

error: command 'cc' failed with exit status 1

----------------------------------------
Cleaning up...
Command /usr/bin/python -c "import setuptools;__file__='/private/var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip_build_root/gnureadline/setup.py';exec(compile(open(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip-iJITYv-record/install-record.txt --single-version-externally-managed failed with error code 1 in /private/var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip_build_root/gnureadline
Storing complete log in /Users/mc/Library/Logs/pip.log
Run Code Online (Sandbox Code Playgroud)

谢谢你的帮助.

python linux pip

26
推荐指数
2
解决办法
1万
查看次数

sklearn GridSearchCV with Pipeline

我是新来sklearnPipelineGridSearchCV功能.我正在尝试构建一个管道,首先对我的训练数据进行RandomizedPCA,然后拟合岭回归模型.这是我的代码:

pca = RandomizedPCA(1000, whiten=True)
rgn = Ridge()

pca_ridge = Pipeline([('pca', pca),
                      ('ridge', rgn)])

parameters = {'ridge__alpha': 10 ** np.linspace(-5, -2, 3)}

grid_search = GridSearchCV(pca_ridge, parameters, cv=2, n_jobs=1, scoring='mean_squared_error')
grid_search.fit(train_x, train_y[:, 1:])
Run Code Online (Sandbox Code Playgroud)

我知道RidgeCV函数,但我想尝试Pipeline和GridSearch CV.

我希望网格搜索CV报告RMSE错误,但这似乎不支持sklearn所以我正在使用MSE.但是,它所支持的分数是负数:

In [41]: grid_search.grid_scores_
Out[41]: 
[mean: -0.02665, std: 0.00007, params: {'ridge__alpha': 1.0000000000000001e-05},
 mean: -0.02658, std: 0.00009, params: {'ridge__alpha': 0.031622776601683791},
 mean: -0.02626, std: 0.00008, params: {'ridge__alpha': 100.0}]
Run Code Online (Sandbox Code Playgroud)

显然这对于​​均方误差是不可能的 - 我在这里做错了什么?

python scikit-learn

24
推荐指数
2
解决办法
2万
查看次数

Numpy float64 vs Python float

我正在与Pandas read_csv函数中的一些浮点问题作斗争.在我的调查中,我发现了这个:

In [15]: a = 5.9975

In [16]: a
Out[16]: 5.9975

In [17]: np.float64(a)
Out[17]: 5.9974999999999996
Run Code Online (Sandbox Code Playgroud)

为什么内置floatPython并且Python中的np.float64类型给出不同的结果?我以为他们都是C++双打?

python floating-point numpy

23
推荐指数
1
解决办法
5万
查看次数

使用RMarkdown + knitr创建带条件格式的表

我有一个数据框,我想通过knitr和RMarkdown将其作为带有条件格式的表格输出到HTML文件中.例:

n <- data.frame(x = c(1,1,1,1,1), y = c(0,1,0,1,0))
> n
  x y
1 1 0
2 1 1
3 1 0
4 1 1
5 1 0
Run Code Online (Sandbox Code Playgroud)

我希望突出显示具有不同x和y值的行.所以在这种情况下,那将是第1,3和5行.如果HTML文件中的输出是HTML表格,那么会很好,但是如果图像也没问题那么失败.

r knitr

19
推荐指数
2
解决办法
7354
查看次数

当其中一些是因素时,如何预处理功能?

我的问题是关系到这一个 关于分类数据使用插入符包时(在R项因素).我从链接的帖子中了解到,如果你使用"公式界面",一些功能可能是因素,培训将正常工作.我的问题是如何使用该preProcess()功能扩展数据?如果我尝试在具有某些列作为因素的数据框上执行此操作,则会收到以下错误消息:

Error in preProcess.default(etitanic, method = c("center", "scale")) : 
  all columns of x must be numeric
Run Code Online (Sandbox Code Playgroud)

在这里看到一些示例代码:

library(earth)
data(etitanic)

a <- preProcess(etitanic, method=c("center", "scale"))
b <- predict(etitanic, a)
Run Code Online (Sandbox Code Playgroud)

谢谢.

r r-caret

14
推荐指数
2
解决办法
1万
查看次数