小编Avi*_*Avi的帖子

如何获得谷歌搜索结果

我使用了以下代码:

library(XML)
library(RCurl)
getGoogleURL <- function(search.term, domain = '.co.uk', quotes=TRUE) 
    {
    search.term <- gsub(' ', '%20', search.term)
    if(quotes) search.term <- paste('%22', search.term, '%22', sep='') 
        getGoogleURL <- paste('http://www.google', domain, '/search?q=',
        search.term, sep='')
    }

    getGoogleLinks <- function(google.url) 
    {
       doc <- getURL(google.url, httpheader = c("User-Agent" = "R(2.10.0)"))
       html <- htmlTreeParse(doc, useInternalNodes = TRUE, error=function(...){})
       nodes <- getNodeSet(html, "//a[@href][@class='l']")
       return(sapply(nodes, function(x) x <- xmlAttrs(x)[[1]]))
    }

search.term <- "cran"
quotes <- "FALSE"
search.url <- getGoogleURL(search.term=search.term, quotes=quotes)

links <- getGoogleLinks(search.url)
Run Code Online (Sandbox Code Playgroud)

我想找到我的搜索产生的所有链接,我得到以下结果:

> links
list()
Run Code Online (Sandbox Code Playgroud)

我怎样才能获得链接?另外我想获得谷歌搜索结果的头条新闻和总结如何才能获得它?最后是否有办法获取ChillingEffects.org结果中的链接?

r hyperlink rcurl

12
推荐指数
3
解决办法
1万
查看次数

使用 Pyspark 比较数据帧的架构

我有一个数据框(df)。为了显示其架构,我使用:

from pyspark.sql.functions import *
df1.printSchema()
Run Code Online (Sandbox Code Playgroud)

我得到以下结果:

#root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)
Run Code Online (Sandbox Code Playgroud)

有时架构会发生变化(列类型或名称):

df2.printSchema()


 #root
        # |-- name: array (nullable = true)
        # |-- gender: integer (nullable = true)
        # |-- age: long (nullable = true)
Run Code Online (Sandbox Code Playgroud)

我想比较两个模式(df1df2)并仅获取类型和列名称的差异(有时列可以移动到另一个位置)。结果应该是一个类似这样的表格(或数据框):

   column                df1          df2     diff                       
    name:               string       array     type                             
    gender:              N/A         integer   new column 
Run Code Online (Sandbox Code Playgroud)

age列是相同的并且没有改变。如果省略列,将会有指示'omitted')如果每个列中有很多列,我该如何有效地做到这一点?

python apache-spark apache-spark-sql pyspark

10
推荐指数
2
解决办法
2万
查看次数

最有效的方法来创建对称矩阵

我有以下矩阵/数据帧:

> e
  V1 V2 V3 V4 V5
1  0  2  3  4  5
2  0  0  6  8 10
3  0  0  0 12 15
4  0  0  0  0 20
5  0  0  0  0  0
Run Code Online (Sandbox Code Playgroud)

在这种情况下,N = 5(行数=列数).我想填写这个对称矩阵中的缺失值(e [1,2] = e [2,1]等).有没有一种最有效的方法来填补缺失的值(N在我的情况下矩阵大小相当大)?有没有比嵌套循环更好的方法?

loops r

8
推荐指数
3
解决办法
3609
查看次数

在CQL Cassandra中查找非主键列的不同值

我使用以下代码创建表:

CREATE KEYSPACE mykeyspace
WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 1 };
USE mykeyspace;
CREATE TABLE users (
  user_id int PRIMARY KEY,
  fname text,
  lname text
);
INSERT INTO users (user_id,  fname, lname)
  VALUES (1745, 'john', 'smith');
INSERT INTO users (user_id,  fname, lname)
  VALUES (1744, 'john', 'doe');
INSERT INTO users (user_id,  fname, lname)
  VALUES (1746, 'john', 'smith');
Run Code Online (Sandbox Code Playgroud)

我想找到lname列的不同值(不是PRIMARY KEY).我想得到以下结果:

 lname
-------
 smith
Run Code Online (Sandbox Code Playgroud)

通过使用SELECT DISTINCT lname FROM users; 但是因为lname不是PRIMARY KEY我得到以下错误:

InvalidRequest: …
Run Code Online (Sandbox Code Playgroud)

select cql distinct cassandra cql3

7
推荐指数
2
解决办法
1万
查看次数

删除部分NA值的行和列

我有以下dataframe(s):

s<-read.table(text = "V1    V2  V3  V4  V5  V6  V7  V8  V9  V10 
  1 0   62  64  44  NA  55  81  66  57  53  
  2 0   0   65  50  NA  56  79  69  52  55  
  3 0   0   0   57  NA  62  84  76  65  59  
  4 0   0   0   0   NA  30  70  61  41  36  
  5 0   0   0   0   NA  NA  NA  NA  NA  NA  
  6 0   0   0   0   0   0   66  63  51 …
Run Code Online (Sandbox Code Playgroud)

row r col dataframe na

6
推荐指数
1
解决办法
110
查看次数

将Randomforest树转换并表示为决策树(rpart)

我有随机森林的以下代码:

set.seed(71) 
rf = randomForest(Species~.,data=iris,ntree=200,mtry=2,sampsize=30,keep.forest=TRUE,replace=FALSE,keep.inbag=TRUE)
Run Code Online (Sandbox Code Playgroud)

我想获得第200个决策树,所以我使用:

> getTree (rf,200)
  left daughter right daughter split var split point status prediction
1             2              3         3        2.50      1          0
2             0              0         0        0.00     -1          1
3             4              5         3        4.75      1          0
4             0              0         0        0.00     -1          2
5             6              7         3        5.05      1          0
6             8              9         1        6.45      1          0
7             0              0         0        0.00     -1          3
8             0              0         0        0.00     -1          3
9             0              0         0        0.00 …
Run Code Online (Sandbox Code Playgroud)

r decision-tree random-forest rpart

5
推荐指数
0
解决办法
123
查看次数

python 中的 mtcnn 中未定义名称“MTCNN”

我安装了mtcnn包,可以看到:

# confirm mtcnn was installed correctly
import mtcnn
# print version
print(mtcnn.__version__)
Run Code Online (Sandbox Code Playgroud)

结果:

0.0.9
Run Code Online (Sandbox Code Playgroud)

然后我使用以下内容:

# prepare model
model = MTCNN()
# detect face in the image
faces = model.detect_faces(pixels)
# extract details of the face
x1, y1, width, height = faces[0]['box']
Run Code Online (Sandbox Code Playgroud)

结果:

1 # prepare model
----> 2 model = MTCNN()
      3 # detect face in the image
      4 faces = model.detect_faces(pixels)
      5 # extract details of the face

NameError: name 'MTCNN' is not defined
Run Code Online (Sandbox Code Playgroud)

python-2.7 conv-neural-network generative-adversarial-network

5
推荐指数
2
解决办法
7634
查看次数

兄弟姐妹和他们的孩子在字符串中的顺序

我用括号格式表示一个树,其中每个级别与其上层分开{.树是二进制的(它可以有一个或两个孩子).我想按字母顺序订购相同级别的兄弟姐妹,同时保留他们的孩子和子孩子.这意味着,只需按字母顺序对每个同级别的2个孩子进行排序.我有一个包含输入树的字符串str1,我想在字符串str2中获得有序.

这是一个例子:

str1<-"{A{C{D{E}}}{B{F{G{H{I}}}}}}"
Run Code Online (Sandbox Code Playgroud)

在订单处理的第一阶段,我希望str2如下:

{A{B{F{G{H{I}}}}}{C{D{E}}}}
Run Code Online (Sandbox Code Playgroud)

只需在C及其所有孩子和B及其所有子孩子之间切换然后继续...(因为C和B都是他们父亲的第二级A.只有一个'{'在B和C之间分开A)我该怎么办?

string r

2
推荐指数
1
解决办法
277
查看次数

为这两个因素添加最大级别

我有2个因素A和B:因子A具有以下水平:

> levels (A)
[1] "1" "2" "3"
Run Code Online (Sandbox Code Playgroud)

B因子有以下几个级别:

> levels (B)
[1] "1" "2"
Run Code Online (Sandbox Code Playgroud)

我想计算它们的水平重合的元素的比例,所以我使用以下内容:

C<-mean (A == B)
Run Code Online (Sandbox Code Playgroud)

因为它们必须具有相同的水平.我在B中添加了"3"级别:

levels(B) <- c(levels(B), "3")
Run Code Online (Sandbox Code Playgroud)

然而,这仅仅是一个例子,因为有时A的级别比B级更高,有时B的级别比A级更高.我想向每个级别插入最大级别的数量,这样它们就会相同而且我将能够计算C.我该怎么办?

r levels

2
推荐指数
1
解决办法
42
查看次数

seq_len出错

我有以下data.frame:

> head (data)
                                                             verb_object SESSION_ID transactionID sequenceID eventID items
1:                               34D89F927092290A5DA9B108F7020C19 SELECT   36652675          2058   36652675       1   OV1
2: 15873DB37BF80750C70B68A8778B9DC01D548B6D06E3BF92CADAFF289B3FCAEE CALL   38763251            90   38763251       1   OV2
3: D6941F85A1763F1F2D27B8F032D6411C86D4A5200512D65F381052C7D42BF57F CALL   40257471            63   40257471       1   OV3
4:                               E768D36C813FD14157B06474F345EAFC SELECT   40897086         39475   40897086       1   OV4
5: 15873DB37BF80750C70B68A8778B9DC01D548B6D06E3BF92CADAFF289B3FCAEE CALL   40907760            57   40907760       1   OV2
6:                               8067DE5FF5089BE6EC9D213F42525FC3 SELECT   40928334         29697   40928334       1   OV5
Run Code Online (Sandbox Code Playgroud)

当我运行以下命令时:

> data <- data[, -(1:2)]
> rownames(data) <- as.character (seq_len(nrow(data)) )
Error in seq_len(nrow(data)) : 
  argument must be coercible to non-negative …
Run Code Online (Sandbox Code Playgroud)

r

2
推荐指数
1
解决办法
5419
查看次数