小编Chi*_*Abs的帖子

是否可以为每个单独的请求从start_requests()传递变量到parse()?

我正在使用循环来生成我的请求start_request(),我想传递索引,parse()以便它可以将它存储在项目中.但是当我使用self.i输出时i,每个项目都有最大值(最后一次循环转动).我可以使用,response.url.re('regex to extract the index')但我想知道是否有一种干净的方法将变量从start_requests传递到解析.

scrapy

18
推荐指数
2
解决办法
4444
查看次数

如何使用列名创建一个空数据表,然后将数据表附加到它?

首先,我想创建一个带有列名的空数据表,但它失败了:

data <- data.table(va, vb, vc)

> Error in data.table(va, vb, vc) : object 'va' not found
Run Code Online (Sandbox Code Playgroud)

data.table(va,vb,vc)中的错误:找不到对象'va'

然后我想将数据表附加到它但它也失败了:

data2 <- data.table(va=c(-1,0,1), vb=c(-1,0,1), vc=c(-1,0,1))
data2
   va vb vc
1: -1 -1 -1
2:  0  0  0
3:  1  1  1
merge(data2,data2)

> Error in merge.data.table(data2, data2) : 
      Can not match keys in x and y to automatically determine appropriate `by` parameter. Please set `by` value explicitly.
Run Code Online (Sandbox Code Playgroud)

merge.data.table(data2,data2)出错:无法匹配x和y中的键以自动确定适当的by参数.请by明确设置值.

显然,该函数无法识别by具有两个相同数据表的参数.任何的想法 ?

merge r data.table

17
推荐指数
3
解决办法
3万
查看次数

如何监控应用功能的进度?

我需要制定出一个2886*2886的相关性矩阵,问题是,建立一个中介的DataTable( RESULT)需要为它被绑定在一起很长一段时间,所以我想能够做以下事情,同时呼吁的最后一行RESULT=rbindlist(apply(COMB, 1, append))中代码如下:

  1. 估计应用函数完成所需的时间
  2. 监控其进度
  3. 能够暂停并在以后继续

这是代码:

SOURCE=data.table(NAME=rep(paste0("NAME", as.character(1:2889)), each=600), VALUE=sample(c(TRUE,FALSE), 600, TRUE) )
> SOURCE
            NAME VALUE
      1:   NAME1  TRUE
      2:   NAME1  TRUE
      3:   NAME1  TRUE
      4:   NAME1  TRUE
      5:   NAME1  TRUE
     ---              
1733396: NAME999  TRUE
1733397: NAME999  TRUE
1733398: NAME999  TRUE
1733399: NAME999  TRUE
1733400: NAME999 FALSE

setkey(SOURCE,NAME)
a=SOURCE[,unique(NAME)]
COMB=data.table(expand.grid(a,a, stringsAsFactors=FALSE))
> COMB
             Var1    Var2
      1:    NAME1   NAME1
      2:   NAME10   NAME1
      3:  NAME100   NAME1
      4: NAME1000   NAME1
      5: NAME1001   NAME1
     ---                 
8346317:  NAME995 NAME999 …
Run Code Online (Sandbox Code Playgroud)

r apply data.table

13
推荐指数
2
解决办法
7368
查看次数

如何在项目获得空字段时重试请求n次?

我正在尝试废弃一系列网页,但我遇到漏洞,有时看起来网站无法正确发送html响应.这导致csv输出文件具有空行.当响应中的xpath选择器为空时,如何重试n次请求和解析?请注意,我没有任何HTTP错误.

scrapy

12
推荐指数
2
解决办法
6323
查看次数

如何让 re.search 返回一个字符串?

我正在尝试匹配文件行中的字符串并编写匹配项减去第一个和最后一个

import os, re

infile=open("~/infile", "r")
out=open("~/out", "w")
pattern=re.compile("=[A-Z0-9]*>")
for line in infile:
    out.write( pattern.search(line)[1:-1] + '\n' )
Run Code Online (Sandbox Code Playgroud)

问题是它说这Match是不可下标的,当我尝试添加.group()它时说Nonegroup has no attritube groupgroups() 返回.write需要一个元组等

知道如何.search返回一个字符串吗?

python regex string

11
推荐指数
2
解决办法
2万
查看次数

如何使%like%运算符不区分大小写

有没有办法让包中的%like%运算符datatable不区分大小写?所以比如'hello' %like% 'HELlo'匹配.

r data.table

6
推荐指数
1
解决办法
956
查看次数

安装了两个python版本后,如何让scrapy使用python 3?

关于scrapy正在使用的python版本的快速问题。我从AURarchlinux 上的存储库安装了 scrapy ,它默认使用python 2.7. Scrapy 支持python 3.3+. 有谁知道如何在不卸载 2.7 的情况下强制它使用 3.3,在 Internet 上找不到任何内容。

python scrapy

5
推荐指数
1
解决办法
3037
查看次数

错误:.onLoad在'tcltk'的loadNamespace()中失败,详情:

我有Archlinux,我尝试运行install.packages("zoo"),我收到以下错误消息:

错误:.onLoad在loadNamespace()中为'tcltk'失败,详情:call:dyn.load(file,DLLpath = DLLpath,...)错误:无法加载共享对象'/ usr/lib/R/library/tcltk /libs/tcltk.so':libtk8.6.so:无法打开共享对象文件:没有这样的文件或目录

我知道这个问题已在本网站上提出,但我找不到合适的答案.

capabilities("tcltk")
# tcltk 
#  TRUE

library(tcltk)
Run Code Online (Sandbox Code Playgroud)

错误:.onLoad在loadNamespace()中为'tcltk'失败,详情:call:dyn.load(file,DLLpath = DLLpath,...)错误:无法加载共享对象'/ usr/lib/R/library/tcltk /libs/tcltk.so':libtk8.6.so:无法打开共享对象文件:没有这样的文件或目录错误:'tcltk'的包或命名空间加载失败

有关如何解决这个问题的任何想法?

r archlinux

2
推荐指数
1
解决办法
2428
查看次数

如何循环数据表列?

我希望将数据表的列转换为另一个类,我无法使用字符串引用列.

set.seed(10238)
idt <- data.table(A = rep(1:3, each = 5), B = rep(1:5, 3),
                 C = sample(15), D = sample(15)) 

> idt
    A B  C  D
 1: 1 1 10 14
 2: 1 2  2  2
 3: 1 3 13  3
 4: 1 4  7  1
 5: 1 5  1  8
 6: 2 1 11 15
 7: 2 2  4 10
 8: 2 3 15  7
 9: 2 4 14 12
10: 2 5  5  9
11: 3 1  8 …
Run Code Online (Sandbox Code Playgroud)

r data.table

-2
推荐指数
1
解决办法
3021
查看次数

标签 统计

r ×5

data.table ×4

scrapy ×3

python ×2

apply ×1

archlinux ×1

merge ×1

regex ×1

string ×1