小编adr*_*121的帖子

从R中的每分钟数据创建15分钟的时间间隔?

我有一些数据按以下方式格式化:

time     count 
00:00    17
00:01    62
00:02    41
Run Code Online (Sandbox Code Playgroud)

所以我从00:00到23:59,每分钟都有一个柜台.我想以15分钟的间隔对数据进行分组,以便:

time           count
00:00-00:15    148   
00:16-00:30    284
Run Code Online (Sandbox Code Playgroud)

我已经尝试手动完成但是这很累,所以我确信必须有一个功能或某事可以轻松完成,但我还没想出怎么做.

我真的很感激一些帮助!!

非常感谢你!

format time r

11
推荐指数
1
解决办法
6302
查看次数

在R中使用tm包的词干不能正常工作?

我正在进行一些文本挖掘(PCA,HC,K-Means),到目前为止,我已经成功地编写了一切.但是,我想解决一个小缺陷.

当我试图阻止我的语料库时,它不能正常工作,因为有不同的词语具有相同的基础,而这些词语没有以正确的方式识别.这些是我特别感兴趣的词(它是西班牙语,意思是"孩子"或相关):

niñera, niños, niñas, niña, niño
Run Code Online (Sandbox Code Playgroud)

但是当我运行代码时,我发现这些单词仍然是相同的,除了

niña, niño --> niñ 
Run Code Online (Sandbox Code Playgroud)

但另一方保持不变,所以我最终只是为了niña/niño,而不是其他人.

这是我创建语料库的代码:

corp <- Corpus(DataframeSource(data.frame(x$service_name)))
docs <- tm_map(corp, removePunctuation)
docs <- tm_map(docs, removeNumbers) 
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords("spanish"))
docs <- tm_map(docs, stemDocument, language = "spanish") 
docs <- tm_map(docs, PlainTextDocument) 
dtm <- DocumentTermMatrix(docs)   
dtm  
Run Code Online (Sandbox Code Playgroud)

我真的很感激一些建议!谢谢

r corpus text-mining

6
推荐指数
1
解决办法
5500
查看次数

使用UTF-8编码错误将.csv导入R?

我有一个用西班牙语写的.csv文件,因此它有特殊字符,如ñ,á,é,í,ó,ú.因此,如果我在记事本中打开它,我可以看到正确写入的所有字符,并且我已经使用UTF-8编码保存了该文件.但是,当我打开RStudio并使用以下方法导入数据时:

servutf <- read.csv("servutf.csv", sep=";")
Run Code Online (Sandbox Code Playgroud)

我得到了所有数据集,但编码错误,即:

Tengo 7 años de experiencia
Run Code Online (Sandbox Code Playgroud)

它应该是以下内容:

Tengo 7 años de experiencia
Run Code Online (Sandbox Code Playgroud)

我已经尝试了一切,我不知道还有什么要做,因为我已经检查过R使用UTF-8编码并且文件以相同的方式编码.

有什么建议吗?

csv encoding r utf-8

5
推荐指数
1
解决办法
8067
查看次数

如何在 R 中使用 strptime() 保持午夜(00:00h)?

我有一个数据框 df,它具有以下格式的日期因子变量:

2015-12-15 10:00:00
2015-12-19 12:00:00
2015-12-20 20:00:00
Run Code Online (Sandbox Code Playgroud)

它是每小时数据。在查看午夜 00:00:00 时会出现问题,因为它没有出现小时。它只是说:

21/12/2015
Run Code Online (Sandbox Code Playgroud)

因此,如您所见,它只显示日期,但没有显示小时。所以我使用 strptime 转换为日期格式:

df$date <- strptime(df$date,"%d/%m/%Y %H:%M")
Run Code Online (Sandbox Code Playgroud)

除了午夜 00:00:00 的任何一天之外,所有时间和日期都可以正常工作,返回:

NA
Run Code Online (Sandbox Code Playgroud)

我非常感谢您的帮助,因为我一直在查看 StackOverflow 和其他论坛中以前的帖子,但我还没有设法找出这个特定问题的解决方案。

format datetime r date posixct

2
推荐指数
1
解决办法
2644
查看次数

标签 统计

r ×4

format ×2

corpus ×1

csv ×1

date ×1

datetime ×1

encoding ×1

posixct ×1

text-mining ×1

time ×1

utf-8 ×1