我在R中有一个数据框,它有很多重复的记录.我有兴趣了解每个数据框中有多少条记录.
例如,我有这个数据框:
Fake Name Fake ID Fake Status Fake Program
June 0003 Green PR1
June 0003 Green PR1
Television 202 Blue PR3
Television 202 Green PR3
Television 202 Green PR3
CRT 12 Red PR0
Run Code Online (Sandbox Code Playgroud)
从上面我想得到类似下面的东西:
Fake Name Fake ID Fake Status Fake Program COUNT
June 0003 Green PR1 2
Television 202 Blue PR3 1
Television 202 Green PR3 2
CRT 12 Red PR0 1
Run Code Online (Sandbox Code Playgroud)
任何帮助,将不胜感激.谢谢.
我的project_folder 中嵌套有两个文件夹(folder1 和folder2)。Folder2 是我的工作目录,它是我保存 RMarkdown 文件及其输出的位置。文件夹 1 是我保存图片和数据文件的地方。我试图在文件夹 2 目录中编译和工作时从文件夹 1 插入 .jpg 文件。我尝试这样做:
```{r Chunk1, echo = FALSE, message = FALSE, warning = FALSE, error = FALSE, comment = NA, fig.align = "center", results = 'asis'}
#Set the wd one step back
knitr::opts_knit$set(root.dir = setwd('..'))
#Call the picture
knitr::include_graphics('/folder1/external/picture1.jpg')
```
Run Code Online (Sandbox Code Playgroud)
但我不断收到程序找不到文件的错误:
Error in knitr::include_graphics("/folder1/external/picture1.jpg") : Cannot find the file(s): "/folder1/external/picture1.jpg" Calls: <Anonymous> . . . withCallingHandlers -> withVisible -> eval -> eval -> <Anonymous> In addition: Warning message: package …
Run Code Online (Sandbox Code Playgroud) 我在 python 的 pandas 数据框中有一列标记。看起来像这样的东西:
word_tokens
(the,cheeseburger,was,great)
(i,never,did,like,the,pizza,too,much)
(yellow,submarine,was,only,an,ok,song)
Run Code Online (Sandbox Code Playgroud)
我想使用 spacy 库在此数据框中再获得两个新列。一列包含删除了停用词的每一行的标记,另一列包含第二列中的引理。我怎么能这么做呢?