我正在使用循环来生成我的请求start_request(),我想传递索引,parse()以便它可以将它存储在项目中.但是当我使用self.i输出时i,每个项目都有最大值(最后一次循环转动).我可以使用,response.url.re('regex to extract the index')但我想知道是否有一种干净的方法将变量从start_requests传递到解析.
首先,我想创建一个带有列名的空数据表,但它失败了:
data <- data.table(va, vb, vc)
> Error in data.table(va, vb, vc) : object 'va' not found
Run Code Online (Sandbox Code Playgroud)
data.table(va,vb,vc)中的错误:找不到对象'va'
然后我想将数据表附加到它但它也失败了:
data2 <- data.table(va=c(-1,0,1), vb=c(-1,0,1), vc=c(-1,0,1))
data2
va vb vc
1: -1 -1 -1
2: 0 0 0
3: 1 1 1
merge(data2,data2)
> Error in merge.data.table(data2, data2) :
Can not match keys in x and y to automatically determine appropriate `by` parameter. Please set `by` value explicitly.
Run Code Online (Sandbox Code Playgroud)
merge.data.table(data2,data2)出错:无法匹配x和y中的键以自动确定适当的
by参数.请by明确设置值.
显然,该函数无法识别by具有两个相同数据表的参数.任何的想法 ?
我需要制定出一个2886*2886的相关性矩阵,问题是,建立一个中介的DataTable( RESULT)需要为它被绑定在一起很长一段时间,所以我想能够做以下事情,同时呼吁的最后一行RESULT=rbindlist(apply(COMB, 1, append))中代码如下:
这是代码:
SOURCE=data.table(NAME=rep(paste0("NAME", as.character(1:2889)), each=600), VALUE=sample(c(TRUE,FALSE), 600, TRUE) )
> SOURCE
NAME VALUE
1: NAME1 TRUE
2: NAME1 TRUE
3: NAME1 TRUE
4: NAME1 TRUE
5: NAME1 TRUE
---
1733396: NAME999 TRUE
1733397: NAME999 TRUE
1733398: NAME999 TRUE
1733399: NAME999 TRUE
1733400: NAME999 FALSE
setkey(SOURCE,NAME)
a=SOURCE[,unique(NAME)]
COMB=data.table(expand.grid(a,a, stringsAsFactors=FALSE))
> COMB
Var1 Var2
1: NAME1 NAME1
2: NAME10 NAME1
3: NAME100 NAME1
4: NAME1000 NAME1
5: NAME1001 NAME1
---
8346317: NAME995 NAME999 …Run Code Online (Sandbox Code Playgroud) 我正在尝试废弃一系列网页,但我遇到漏洞,有时看起来网站无法正确发送html响应.这导致csv输出文件具有空行.当响应中的xpath选择器为空时,如何重试n次请求和解析?请注意,我没有任何HTTP错误.
我正在尝试匹配文件行中的字符串并编写匹配项减去第一个和最后一个
import os, re
infile=open("~/infile", "r")
out=open("~/out", "w")
pattern=re.compile("=[A-Z0-9]*>")
for line in infile:
out.write( pattern.search(line)[1:-1] + '\n' )
Run Code Online (Sandbox Code Playgroud)
问题是它说这Match是不可下标的,当我尝试添加.group()它时说Nonegroup has no attritube group,groups() 返回.write需要一个元组等
知道如何.search返回一个字符串吗?
有没有办法让包中的%like%运算符datatable不区分大小写?所以比如'hello' %like% 'HELlo'匹配.
关于scrapy正在使用的python版本的快速问题。我从AURarchlinux 上的存储库安装了 scrapy ,它默认使用python 2.7. Scrapy 支持python 3.3+. 有谁知道如何在不卸载 2.7 的情况下强制它使用 3.3,在 Internet 上找不到任何内容。
我有Archlinux,我尝试运行install.packages("zoo"),我收到以下错误消息:
错误:.onLoad在loadNamespace()中为'tcltk'失败,详情:call:dyn.load(file,DLLpath = DLLpath,...)错误:无法加载共享对象'/ usr/lib/R/library/tcltk /libs/tcltk.so':libtk8.6.so:无法打开共享对象文件:没有这样的文件或目录
我知道这个问题已在本网站上提出,但我找不到合适的答案.
capabilities("tcltk")
# tcltk
# TRUE
library(tcltk)
Run Code Online (Sandbox Code Playgroud)
错误:.onLoad在loadNamespace()中为'tcltk'失败,详情:call:dyn.load(file,DLLpath = DLLpath,...)错误:无法加载共享对象'/ usr/lib/R/library/tcltk /libs/tcltk.so':libtk8.6.so:无法打开共享对象文件:没有这样的文件或目录错误:'tcltk'的包或命名空间加载失败
有关如何解决这个问题的任何想法?
我希望将数据表的列转换为另一个类,我无法使用字符串引用列.
set.seed(10238)
idt <- data.table(A = rep(1:3, each = 5), B = rep(1:5, 3),
C = sample(15), D = sample(15))
> idt
A B C D
1: 1 1 10 14
2: 1 2 2 2
3: 1 3 13 3
4: 1 4 7 1
5: 1 5 1 8
6: 2 1 11 15
7: 2 2 4 10
8: 2 3 15 7
9: 2 4 14 12
10: 2 5 5 9
11: 3 1 8 …Run Code Online (Sandbox Code Playgroud)