我使用了以下代码:
library(XML)
library(RCurl)
getGoogleURL <- function(search.term, domain = '.co.uk', quotes=TRUE)
{
search.term <- gsub(' ', '%20', search.term)
if(quotes) search.term <- paste('%22', search.term, '%22', sep='')
getGoogleURL <- paste('http://www.google', domain, '/search?q=',
search.term, sep='')
}
getGoogleLinks <- function(google.url)
{
doc <- getURL(google.url, httpheader = c("User-Agent" = "R(2.10.0)"))
html <- htmlTreeParse(doc, useInternalNodes = TRUE, error=function(...){})
nodes <- getNodeSet(html, "//a[@href][@class='l']")
return(sapply(nodes, function(x) x <- xmlAttrs(x)[[1]]))
}
search.term <- "cran"
quotes <- "FALSE"
search.url <- getGoogleURL(search.term=search.term, quotes=quotes)
links <- getGoogleLinks(search.url)
Run Code Online (Sandbox Code Playgroud)
我想找到我的搜索产生的所有链接,我得到以下结果:
> links
list()
Run Code Online (Sandbox Code Playgroud)
我怎样才能获得链接?另外我想获得谷歌搜索结果的头条新闻和总结如何才能获得它?最后是否有办法获取ChillingEffects.org结果中的链接?
我有一个数据框(df)。为了显示其架构,我使用:
from pyspark.sql.functions import *
df1.printSchema()
Run Code Online (Sandbox Code Playgroud)
我得到以下结果:
#root
# |-- name: string (nullable = true)
# |-- age: long (nullable = true)
Run Code Online (Sandbox Code Playgroud)
有时架构会发生变化(列类型或名称):
df2.printSchema()
#root
# |-- name: array (nullable = true)
# |-- gender: integer (nullable = true)
# |-- age: long (nullable = true)
Run Code Online (Sandbox Code Playgroud)
我想比较两个模式(df1和df2)并仅获取类型和列名称的差异(有时列可以移动到另一个位置)。结果应该是一个类似这样的表格(或数据框):
column df1 df2 diff
name: string array type
gender: N/A integer new column
Run Code Online (Sandbox Code Playgroud)
(age列是相同的并且没有改变。如果省略列,将会有指示'omitted')如果每个列中有很多列,我该如何有效地做到这一点?
我有以下矩阵/数据帧:
> e
V1 V2 V3 V4 V5
1 0 2 3 4 5
2 0 0 6 8 10
3 0 0 0 12 15
4 0 0 0 0 20
5 0 0 0 0 0
Run Code Online (Sandbox Code Playgroud)
在这种情况下,N = 5(行数=列数).我想填写这个对称矩阵中的缺失值(e [1,2] = e [2,1]等).有没有一种最有效的方法来填补缺失的值(N在我的情况下矩阵大小相当大)?有没有比嵌套循环更好的方法?
我使用以下代码创建表:
CREATE KEYSPACE mykeyspace
WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 1 };
USE mykeyspace;
CREATE TABLE users (
user_id int PRIMARY KEY,
fname text,
lname text
);
INSERT INTO users (user_id, fname, lname)
VALUES (1745, 'john', 'smith');
INSERT INTO users (user_id, fname, lname)
VALUES (1744, 'john', 'doe');
INSERT INTO users (user_id, fname, lname)
VALUES (1746, 'john', 'smith');
Run Code Online (Sandbox Code Playgroud)
我想找到lname列的不同值(不是PRIMARY KEY).我想得到以下结果:
lname
-------
smith
Run Code Online (Sandbox Code Playgroud)
通过使用SELECT DISTINCT lname FROM users;
但是因为lname不是PRIMARY KEY我得到以下错误:
InvalidRequest: …Run Code Online (Sandbox Code Playgroud) 我有以下dataframe(s):
s<-read.table(text = "V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1 0 62 64 44 NA 55 81 66 57 53
2 0 0 65 50 NA 56 79 69 52 55
3 0 0 0 57 NA 62 84 76 65 59
4 0 0 0 0 NA 30 70 61 41 36
5 0 0 0 0 NA NA NA NA NA NA
6 0 0 0 0 0 0 66 63 51 …Run Code Online (Sandbox Code Playgroud) 我有随机森林的以下代码:
set.seed(71)
rf = randomForest(Species~.,data=iris,ntree=200,mtry=2,sampsize=30,keep.forest=TRUE,replace=FALSE,keep.inbag=TRUE)
Run Code Online (Sandbox Code Playgroud)
我想获得第200个决策树,所以我使用:
> getTree (rf,200)
left daughter right daughter split var split point status prediction
1 2 3 3 2.50 1 0
2 0 0 0 0.00 -1 1
3 4 5 3 4.75 1 0
4 0 0 0 0.00 -1 2
5 6 7 3 5.05 1 0
6 8 9 1 6.45 1 0
7 0 0 0 0.00 -1 3
8 0 0 0 0.00 -1 3
9 0 0 0 0.00 …Run Code Online (Sandbox Code Playgroud) 我安装了mtcnn包,可以看到:
# confirm mtcnn was installed correctly
import mtcnn
# print version
print(mtcnn.__version__)
Run Code Online (Sandbox Code Playgroud)
结果:
0.0.9
Run Code Online (Sandbox Code Playgroud)
然后我使用以下内容:
# prepare model
model = MTCNN()
# detect face in the image
faces = model.detect_faces(pixels)
# extract details of the face
x1, y1, width, height = faces[0]['box']
Run Code Online (Sandbox Code Playgroud)
结果:
1 # prepare model
----> 2 model = MTCNN()
3 # detect face in the image
4 faces = model.detect_faces(pixels)
5 # extract details of the face
NameError: name 'MTCNN' is not defined
Run Code Online (Sandbox Code Playgroud) python-2.7 conv-neural-network generative-adversarial-network
我用括号格式表示一个树,其中每个级别与其上层分开{.树是二进制的(它可以有一个或两个孩子).我想按字母顺序订购相同级别的兄弟姐妹,同时保留他们的孩子和子孩子.这意味着,只需按字母顺序对每个同级别的2个孩子进行排序.我有一个包含输入树的字符串str1,我想在字符串str2中获得有序.
这是一个例子:
str1<-"{A{C{D{E}}}{B{F{G{H{I}}}}}}"
Run Code Online (Sandbox Code Playgroud)
在订单处理的第一阶段,我希望str2如下:
{A{B{F{G{H{I}}}}}{C{D{E}}}}
Run Code Online (Sandbox Code Playgroud)
只需在C及其所有孩子和B及其所有子孩子之间切换然后继续...(因为C和B都是他们父亲的第二级A.只有一个'{'在B和C之间分开A)我该怎么办?
我有2个因素A和B:因子A具有以下水平:
> levels (A)
[1] "1" "2" "3"
Run Code Online (Sandbox Code Playgroud)
B因子有以下几个级别:
> levels (B)
[1] "1" "2"
Run Code Online (Sandbox Code Playgroud)
我想计算它们的水平重合的元素的比例,所以我使用以下内容:
C<-mean (A == B)
Run Code Online (Sandbox Code Playgroud)
因为它们必须具有相同的水平.我在B中添加了"3"级别:
levels(B) <- c(levels(B), "3")
Run Code Online (Sandbox Code Playgroud)
然而,这仅仅是一个例子,因为有时A的级别比B级更高,有时B的级别比A级更高.我想向每个级别插入最大级别的数量,这样它们就会相同而且我将能够计算C.我该怎么办?
我有以下data.frame:
> head (data)
verb_object SESSION_ID transactionID sequenceID eventID items
1: 34D89F927092290A5DA9B108F7020C19 SELECT 36652675 2058 36652675 1 OV1
2: 15873DB37BF80750C70B68A8778B9DC01D548B6D06E3BF92CADAFF289B3FCAEE CALL 38763251 90 38763251 1 OV2
3: D6941F85A1763F1F2D27B8F032D6411C86D4A5200512D65F381052C7D42BF57F CALL 40257471 63 40257471 1 OV3
4: E768D36C813FD14157B06474F345EAFC SELECT 40897086 39475 40897086 1 OV4
5: 15873DB37BF80750C70B68A8778B9DC01D548B6D06E3BF92CADAFF289B3FCAEE CALL 40907760 57 40907760 1 OV2
6: 8067DE5FF5089BE6EC9D213F42525FC3 SELECT 40928334 29697 40928334 1 OV5
Run Code Online (Sandbox Code Playgroud)
当我运行以下命令时:
> data <- data[, -(1:2)]
> rownames(data) <- as.character (seq_len(nrow(data)) )
Error in seq_len(nrow(data)) :
argument must be coercible to non-negative …Run Code Online (Sandbox Code Playgroud)