小编RpB*_*RpB的帖子

Python Scrapy:"runspider"和"crawl"命令有什么区别？

有人可以解释runspider和crawl命令之间的区别吗？应该使用它们的背景是什么？

scrapy python-2.7

RpB*_*RpB

lucky-day

12
推荐指数

3
解决办法

5291
查看次数

在R中使用summary()和max,min和mean时的值不同

我试图获取数据框中列的最大值,最小值和平均值.当我使用max,min和mean时,我得到的一些值与我使用时的值不同,summary()

> max(count1,na.rm=TRUE)
[1] 202034

> min(count1,na.rm=TRUE)
[1] 0

> mean(count1,na.rm=TRUE)
[1] 8498.78

> summary(count1,na.rm=TRUE) 
Min.  1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
0        1555    3668    8499    8535  202000   58297

Run Code Online (Sandbox Code Playgroud)

RpB*_*RpB

2015 07-26

3
推荐指数

1
解决办法

1533
查看次数

scrapy：请求 url 必须是 str 或 unicode，得到了选择器

我正在使用 Scrapy 编写一个蜘蛛，以抓取 Pinterest 的用户详细信息。我正在尝试获取用户及其关注者的详细信息（依此类推，直到最后一个节点）。

下面是蜘蛛代码：

从 scrapy.spider 导入 BaseSpider

从 pinners.items 导入scrapy 从scrapy.http 导入PinterestItem 从urlparse 导入FormRequest 导入urlparse

类示例（BaseSpider）：

name = 'sample'
allowed_domains = ['pinterest.com']
start_urls = ['https://www.pinterest.com/banka/followers', ]

def parse(self, response):
    for base_url in response.xpath('//div[@class="Module User gridItem"]/a/@href'):
        list_a = response.urljoin(base_url.extract())
        for new_urls in response.xpath('//div[@class="Module User gridItem"]/a/@href'):
            yield scrapy.Request(new_urls, callback=self.Next)
    yield scrapy.Request(list_a, callback=self.Next)

def Next(self, response):
    href_base = response.xpath('//div[@class = "tabs"]/ul/li/a')
    href_board = href_base.xpath('//div[@class="BoardCount Module"]')
    href_pin = href_base.xpath('.//div[@class="Module PinCount"]')
    href_like = href_base.xpath('.//div[@class="LikeCount Module"]')
    href_followers = href_base.xpath('.//div[@class="FollowerCount Module"]')
    href_following = href_base.xpath('.//div[@class="FollowingCount …

Run Code Online (Sandbox Code Playgroud)

screen-scraping scrapy python-2.7

RpB*_*RpB

lucky-day

2
推荐指数

1
解决办法

3039
查看次数