小编S D*_*Das的帖子

将空白单元格更改为"NA"

这是我的数据的链接.

我的目标是为所有空白单元分配"NA",而不管分类或数值.我正在使用na.strings ="".但它没有为所有空白细胞分配NA.

## reading the data
dat <- read.csv("data2.csv")
head(dat)
  mon hr        acc   alc sex spd axles door  reg                                 cond1 drug1
1   8 21 No Control  TRUE   F   0     2    2      Physical Impairment (Eyes, Ear, Limb)     A
2   7 20 No Control FALSE   M 900     2    2                                Inattentive     D
3   3  9 No Control FALSE   F 100     2    2 2004                                Normal     D
4   1 15 No Control FALSE   M   0     2    2      Physical Impairment (Eyes, …

Run Code Online (Sandbox Code Playgroud)

r na

S D*_*Das

lucky-day

61
推荐指数

9
解决办法

18万
查看次数

获取特定包中的数据集列表

我想获得控制台中显示的特定R包中的所有数据集的列表.我知道该函数data()将列出已加载包中的所有数据集.那不是我的目标.我想获得特定R包中所有数据集的列表.以下尝试无效.

data()
data('arules')
# Warning message:
# In data("arules") : data set ‘arules’ not found

Run Code Online (Sandbox Code Playgroud)

我的另一个目的是获取dim特定包中所有数据集的列表.

S D*_*Das

2017 09-15

32
推荐指数

2
解决办法

3万
查看次数

使用R将PDF文件转换为文本文件以进行文本挖掘

我在一个文件夹中有近千篇pdf期刊文章.我需要在整个文件夹中对所有文章的摘要进行文本处理.现在我正在做以下事情:

dest <- "~/A1.pdf"

# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)

# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)

Run Code Online (Sandbox Code Playgroud)

通过这个,我将一个pdf文件转换为一个.txt文件,然后将该摘要复制到另一个.txt文件中并手动编译.这项工作很麻烦.

如何从文件夹中读取所有单篇文章并将其转换为仅包含每篇文章摘要的.txt文件.可以通过限制每篇文章中的摘要和引言之间的内容来完成; 但我无法这样做.任何帮助表示赞赏.

r text-mining pdftotext tm

S D*_*Das

2018 02-16

17
推荐指数

2
解决办法

3万
查看次数

在R中打破X轴

我希望在我的情节中得到一个破X轴.在x轴上,我喜欢插入一个断轴符号< // >[从2开始到8结束,这意味着2-8将隐藏在< // >符号中],因此可以强调其他值.在Matlab中,此任务通过使用BreakXAxis执行.在R中,plotrix库只能插入一个断轴符号,就是这样.

x <- c(9.45, 8.78, 0.93, 0.47, 0.24, 0.12)
y <- c(10.72, 10.56, 10.35, 10.10, 9.13, 6.72)
z <- c(7.578, 7.456, 6.956, 6.712, 4.832, 3.345)
plot(x, y, col='blue', pch=16, xlab= 'x', ylab='y, z')
points(x, z, col='red', pch=17)
library(plotrix)
axis.break(1,2,style="slash")

Run Code Online (Sandbox Code Playgroud)

r plotrix

S D*_*Das

2015 04-10

14
推荐指数

2
解决办法

3万
查看次数

在R Markdown中嵌入Youtube视频

我试图通过嵌入YouTube视频链接.Rmd在Rpubs中发布.经过一番探索,我正在尝试以下内容,只是在我的html中给出了一个空白区域.

<div align="center">
   <iframe width="560" height="315" src="http://www.youtube.com/embed/zsYjsgm4Psg" frameborder="0" allowfullscreen>
   </iframe>
</div>

Run Code Online (Sandbox Code Playgroud)

S D*_*Das

2018 08-28

8
推荐指数

1
解决办法

5182
查看次数

使用DiagrammeR进行路径图(SEM)

我正在测试新的DiagrammeR包的功能,以便可视化结构方程模型.

我的目标是,获得这样的情节: 在此输入图像描述

也许我需要找到一个关于如何指定边和节点方向的资源,因为 - 有DiagrammeR- 我现在只能做这样的情节: 在此输入图像描述

devtools::install_github('rich-iannone/DiagrammeR')
library('DiagrammeR')

#----------

test<-grViz("     
digraph CFA{

# latent variables
node [shape=circle]
latent_a [group='a']; 
latent_b [group='b'];

#regressions
latent_a -> latent_b [label='0.279'];

#measurement model for latent a
subgraph A{
node [shape=box]
ind_1; 
ind_2; 
ind_3; 
latent_a -> ind_1 [label='0.636'];
latent_a -> ind_2 [label='0.825'];
latent_a -> ind_3 [label='0.829'];
}

#measurement model for latent b
subgraph B{
node [shape=box]
ind_4 ; 
ind_5 ;
latent_b -> ind_4 [label='1.027'];
latent_b -> ind_5 [label='0.626'];
}

#residuals
node [shape=circle]
e1 ; …

Run Code Online (Sandbox Code Playgroud)

r flowchart diagrammer

SEM*_*son

2015 06-28

4
推荐指数

1
解决办法

2567
查看次数

基于最小值的子集数据

这可能是一件容易的事。这是数据：

dat <- read.table(header=TRUE, text="
Seg  ID  Distance
Seg46      V21 160.37672
Seg72      V85 191.24400
Seg373      V85 167.38930
Seg159     V147  14.74852
Seg233     V171 193.01636
Seg234     V171 200.21458

                   ")
dat
Seg  ID  Distance
Seg46      V21 160.37672
Seg72      V85 191.24400
Seg373      V85 167.38930
Seg159     V147  14.74852
Seg233     V171 193.01636
Seg234     V171 200.21458

Run Code Online (Sandbox Code Playgroud)

我打算得到一个像下面这样的表，它会给我Seg最小的距离（因为重复在ID.

Seg Crash_ID  Distance
Seg46      V21 160.37672
Seg373      V85 167.38930
Seg159     V147  14.74852
Seg233     V171 193.01636

Run Code Online (Sandbox Code Playgroud)

我试图用ddply它来解决它；但它没有到达那里。

ddply(dat, "Seg", summarize, min = min(Distance))
Seg       min …

Run Code Online (Sandbox Code Playgroud)

r subset plyr dplyr

S D*_*Das

lucky-day

3
推荐指数

1
解决办法

1697
查看次数

重塑大数据

我有一个包含100个变量和400,000个事务的大型数据集.这是一个示例数据:

a <- structure(list(ID = c("A1", "A2", "A3", "A1", "A1", "A2", "A4", "A5", "A2", "A3"), 
Type = c("A", "B", "C", "A", "A", "A", "B", "B", "C", "B"), 
Alc = c("E", "F", "G", "E", "E", "E", "F", "F", "F", "F"), 
Com = c("Y", "N", "Y", "N", "Y", "Y", "Y", "N", "N", "Y")),
.Names = c("ID", "Type", "Alc", "Com"), row.names = c(NA, -10L), class = "data.frame")
a

   ID Type Alc Com
1  A1    A   E   Y
2  A2    B   F   N
3 …

Run Code Online (Sandbox Code Playgroud)

r reshape

S D*_*Das

2013 07-23

2
推荐指数

1
解决办法

727
查看次数

特定类别的频率计数

我有这样的数据集.

a <- structure(list(Prone = c("M", "N", "N", "N", "M", "N", "M", "N", "M", "M"), 
Type = c("A", "B", "C", "A", "A", "A", "B", "B", "C", "B"), 
Alc = c("A", "B", "N", "A", "A", "A", "B", "B", "B", "B"), 
Com = c("Y", "N", "Y", "Y", "Y", "Y", "Y", "N", "N", "Y")),
.Names = c("Prone", "Type", "Alc", "Com"), row.names = c(NA, -10L), class = "data.frame")
a
   Prone Type Alc Com
1      M    A   A   Y
2      N    B   B   N
3 …

Run Code Online (Sandbox Code Playgroud)

r frequency

S D*_*Das

lucky-day

1
推荐指数

4
解决办法

6194
查看次数

在R中打印/显示JPG文件

使用rvest软件包时，我试图在R中打印/显示lego_movie海报。我没有这样做。这是我的尝试：

library(rvest)
poster <- lego_movie %>%
  html_nodes("#img_primary img") %>%
  html_attr("src")

## 1st attempt
library(jpeg)
jpeg(poster)
dev.off()

## 2nd attempt
readJPEG(poster)
dev.off()

Run Code Online (Sandbox Code Playgroud)

我认为EBImage具有display功能。无法将该软件包安装在中R-3.1.2。它显示警告消息：package ‘EBImage’ is not available (for R version 3.1.2)。

我的问题的底线是：如何在不使用EBImage软件包的情况下将R中的jpeg文件显示为显示器？

几个相关的问题：

使用R中的基本图形绘制JPG图像

如何将绘图作为图像保存在磁盘上？

jpeg r rvest

S D*_*Das

2017 05-23

-1
推荐指数

1
解决办法

3234
查看次数