我在RStudio中创建了一个RMarkdown文件,并设法用knitr将它编织成HTML和.md文件.接下来,我使用pandoc将.md文件转换为PDF文件(如果我尝试从.html文件转换,我会收到错误).但是,生成的PDF具有巨大的利润(如http://johnmacfarlane.net/pandoc/demo/example13.pdf).如何让pandoc产生边距较小的东西?我查看了pandoc用户指南,但没有找到任何有用的东西.
我正在使用RStudio来编写我的R Markdown文件.如何删除##
代码输出之前显示的最终HTML输出文件中的哈希()?
举个例子:
---
output: html_document
---
```{r}
head(cars)
```
Run Code Online (Sandbox Code Playgroud)
我试图从一串文本中删除停用词:
from nltk.corpus import stopwords
text = 'hello bye the the hi'
text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))])
Run Code Online (Sandbox Code Playgroud)
我正在处理6密耳的这种弦,所以速度很重要.分析我的代码,最慢的部分是上面的行,有没有更好的方法来做到这一点?我正在考虑使用像正则表达式这样的东西,re.sub
但我不知道如何为一组单词编写模式.有人可以帮助我,我也很高兴听到其他可能更快的方法.
注意:我试过有人建议包装stopwords.words('english')
,set()
但没有区别.
谢谢.
我有一个带有两个标题行的CSV文件,第一行我想成为标题,但第二行我要丢弃.如果我执行以下命令:
data <- read.csv("HK Stocks bbg.csv", header = T, stringsAsFactors = FALSE)
Run Code Online (Sandbox Code Playgroud)
第一行成为标题,文件的第二行成为我数据框的第一行:
Xaaaaaaaaa X X.1 Xbbbbbbbbbb X.2 X.3
1 Date PX_LAST NA Date PX_LAST NA
2 31/12/2002 38.855 NA 31/12/2002 19.547 NA
3 02/01/2003 38.664 NA 02/01/2003 19.547 NA
4 03/01/2003 40.386 NA 03/01/2003 19.547 NA
5 06/01/2003 40.386 NA 06/01/2003 19.609 NA
6 07/01/2003 40.195 NA 07/01/2003 19.609 NA
Run Code Online (Sandbox Code Playgroud)
我想跳过CSV文件的第二行,然后得到
X1.HK.Equity X X.1 X2.HK.Equity X.2 X.3
2 31/12/2002 38.855 NA 31/12/2002 19.547 NA
3 02/01/2003 38.664 NA 02/01/2003 …
Run Code Online (Sandbox Code Playgroud) 这是我的RMarkdown文件的代码:
```{r echo=FALSE, message=FALSE}
opts_chunk$set(comment = NA, echo=FALSE, message = FALSE, warnings = FALSE)
options("getSymbols.warning4.0"=FALSE)
Sys.setenv(TZ = "GMT")
library(quantmod)
library(xtable)
library(PerformanceAnalytics)
```
```{r}
getSymbols("^RUT")
chart.TimeSeries(RUT)
dev.off()
```
Run Code Online (Sandbox Code Playgroud)
尽管设置message = FALSE, warnings = FALSE
,我仍然得到输出消息在HTML文件中,当我运行getSymbols()
和dev.off()
.他们各自的产出是:
[1] "RUT"
Run Code Online (Sandbox Code Playgroud)
和
null device
1
Run Code Online (Sandbox Code Playgroud)
如何抑制这些消息?
我试图升级到IPython 2.0时打破了我的IPython设置.安装时安装失败gnureadline
.我原本有这个问题,但我修复了它.现在我收到这个错误:
cc -bundle -undefined dynamic_lookup -arch x86_64 -arch i386 -Wl,-F. -Qunused-arguments -Qunused-arguments build/temp.macosx-10.9-intel-2.7/Modules/2.x/readline.o readline/libreadline.a readline/libhistory.a -lncurses -o build/lib.macosx-10.9-intel-2.7/gnureadline.so
clang: error: no such file or directory: 'readline/libreadline.a'
clang: error: no such file or directory: 'readline/libhistory.a'
error: command 'cc' failed with exit status 1
----------------------------------------
Cleaning up...
Command /usr/bin/python -c "import setuptools;__file__='/private/var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip_build_root/gnureadline/setup.py';exec(compile(open(__file__).read().replace('\r\n', '\n'), __file__, 'exec'))" install --record /var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip-iJITYv-record/install-record.txt --single-version-externally-managed failed with error code 1 in /private/var/folders/jj/0w0dd3n16jq4g5579g6c7h040000gn/T/pip_build_root/gnureadline
Storing complete log in /Users/mc/Library/Logs/pip.log
Run Code Online (Sandbox Code Playgroud)
谢谢你的帮助.
我是新来sklearn
的Pipeline
和GridSearchCV
功能.我正在尝试构建一个管道,首先对我的训练数据进行RandomizedPCA,然后拟合岭回归模型.这是我的代码:
pca = RandomizedPCA(1000, whiten=True)
rgn = Ridge()
pca_ridge = Pipeline([('pca', pca),
('ridge', rgn)])
parameters = {'ridge__alpha': 10 ** np.linspace(-5, -2, 3)}
grid_search = GridSearchCV(pca_ridge, parameters, cv=2, n_jobs=1, scoring='mean_squared_error')
grid_search.fit(train_x, train_y[:, 1:])
Run Code Online (Sandbox Code Playgroud)
我知道RidgeCV
函数,但我想尝试Pipeline和GridSearch CV.
我希望网格搜索CV报告RMSE错误,但这似乎不支持sklearn所以我正在使用MSE.但是,它所支持的分数是负数:
In [41]: grid_search.grid_scores_
Out[41]:
[mean: -0.02665, std: 0.00007, params: {'ridge__alpha': 1.0000000000000001e-05},
mean: -0.02658, std: 0.00009, params: {'ridge__alpha': 0.031622776601683791},
mean: -0.02626, std: 0.00008, params: {'ridge__alpha': 100.0}]
Run Code Online (Sandbox Code Playgroud)
显然这对于均方误差是不可能的 - 我在这里做错了什么?
我正在与Pandas read_csv函数中的一些浮点问题作斗争.在我的调查中,我发现了这个:
In [15]: a = 5.9975
In [16]: a
Out[16]: 5.9975
In [17]: np.float64(a)
Out[17]: 5.9974999999999996
Run Code Online (Sandbox Code Playgroud)
为什么内置float
Python并且Python中的np.float64
类型给出不同的结果?我以为他们都是C++双打?
我有一个数据框,我想通过knitr和RMarkdown将其作为带有条件格式的表格输出到HTML文件中.例:
n <- data.frame(x = c(1,1,1,1,1), y = c(0,1,0,1,0))
> n
x y
1 1 0
2 1 1
3 1 0
4 1 1
5 1 0
Run Code Online (Sandbox Code Playgroud)
我希望突出显示具有不同x和y值的行.所以在这种情况下,那将是第1,3和5行.如果HTML文件中的输出是HTML表格,那么会很好,但是如果图像也没问题那么失败.
我的问题是关系到这一个 关于分类数据使用插入符包时(在R项因素).我从链接的帖子中了解到,如果你使用"公式界面",一些功能可能是因素,培训将正常工作.我的问题是如何使用该preProcess()
功能扩展数据?如果我尝试在具有某些列作为因素的数据框上执行此操作,则会收到以下错误消息:
Error in preProcess.default(etitanic, method = c("center", "scale")) :
all columns of x must be numeric
Run Code Online (Sandbox Code Playgroud)
在这里看到一些示例代码:
library(earth)
data(etitanic)
a <- preProcess(etitanic, method=c("center", "scale"))
b <- predict(etitanic, a)
Run Code Online (Sandbox Code Playgroud)
谢谢.