小编Sci*_*rlo的帖子

使用GoogleFinanceSource函数使用tm.plugin.webmining包进行文本挖掘

我正在网上书http://tidytextmining.com/上学习文本挖掘.在第五章:http: //tidytextmining.com/dtm.html#financial

以下代码:

library(tm.plugin.webmining)
library(purrr)

company <- c("Microsoft", "Apple", "Google", "Amazon", "Facebook",
             "Twitter", "IBM", "Yahoo", "Netflix")
symbol <- c("MSFT", "AAPL", "GOOG", "AMZN", "FB", "TWTR", "IBM", "YHOO", "NFLX")

download_articles <- function(symbol) {
    WebCorpus(GoogleFinanceSource(paste0("NASDAQ:", symbol)))
}
stock_articles <- data_frame(company = company,
                             symbol = symbol) %>%
    mutate(corpus = map(symbol, download_articles))
Run Code Online (Sandbox Code Playgroud)

给我错误:

StartTag: invalid element name
Extra content at the end of the document
Error: 1: StartTag: invalid element name
2: Extra content at the end of the document
Run Code Online (Sandbox Code Playgroud)

任何提示?有人建议删除与"Twitter"相关的公司和符号,但它仍然不起作用并返回相同的错误.提前谢谢了

r text-mining tm

2
推荐指数
1
解决办法
1006
查看次数

使用R删除特定变量中不包含.(点)的行

我有一个防火墙日志文件,包括日期,小时,src_address,dest_address和all_attemps,max_byte,avg_byte和活动率.我想删除不包含的行.(点)src_address columnin r这是我的文件;

    src_address  dest_address all_attemps max_byte avg_byte activity_rate
    2       1.11.201.19 172.16.16.100           1       60       60   0.005434783
    3       1.119.43.90 172.16.16.100           1       60       60   0.005434783
    4       1.119.43.90 172.16.16.153           1       60       60   0.005434783
    5       1.119.43.90 192.168.1.112           1       60       60   0.005434783
    6      1.171.43.133   172.16.16.5           2       52       48   0.010869565
    7      1.179.191.82   172.16.16.5           1       60       60   0.005434783
    8      1.179.191.82 192.168.1.111           2       60       60   0.010869565
    9      1.179.191.82 192.168.1.112           2       60       60   0.010869565
    10     1.180.72.186 172.16.16.153           2       60       60   0.010869565
    11     1.202.165.40 172.16.16.153           1       60       60   0.005434783
    12 …
Run Code Online (Sandbox Code Playgroud)

r

2
推荐指数
1
解决办法
62
查看次数

在两列数据框上使用 adist

我想使用 adist 计算每行中两列值之间的编辑距离。

我或多或少是这样使用它的:

A <- c("mad","car")
B <- c("mug","cat")
my_df <- data.frame(A,B)
my_df$dist <- adist(my_df$A, my_df$B, ignore.case = TRUE)
my_df <- my_df[order(dist),]
Run Code Online (Sandbox Code Playgroud)

最后两行与我的情况相同,但实际数据框看起来有点不同 - 我的原始数据框的列是字符类型,而不是因子。此外, dist 列似乎作为 2 列矩阵返回,我不知道为什么会发生这种情况。

更新:我读了一点,发现我需要将它应用于行,所以我的新代码如下:

apply(my_df, 1, function(d) adist(d[1], d[2]))
Run Code Online (Sandbox Code Playgroud)

它工作正常,但对于我通过列号调用它的原始数据集是不切实际的,我如何在这个函数中引用列名?

r levenshtein-distance

1
推荐指数
1
解决办法
2078
查看次数

标签 统计

r ×3

levenshtein-distance ×1

text-mining ×1

tm ×1