小编RpB*_*RpB的帖子

Python Scrapy:"runspider"和"crawl"命令有什么区别?

有人可以解释runspidercrawl命令之间的区别吗?应该使用它们的背景是什么?

scrapy python-2.7

12
推荐指数
3
解决办法
5291
查看次数

在R中使用summary()和max,min和mean时的值不同

我试图获取数据框中列的最大值,最小值和平均值.当我使用max,min和mean时,我得到的一些值与我使用时的值不同,summary()

> max(count1,na.rm=TRUE)
[1] 202034

> min(count1,na.rm=TRUE)
[1] 0

> mean(count1,na.rm=TRUE)
[1] 8498.78

> summary(count1,na.rm=TRUE) 
Min.  1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
0        1555    3668    8499    8535  202000   58297 
Run Code Online (Sandbox Code Playgroud)

r

3
推荐指数
1
解决办法
1533
查看次数

scrapy:请求 url 必须是 str 或 unicode,得到了选择器

我正在使用 Scrapy 编写一个蜘蛛,以抓取 Pinterest 的用户详细信息。我正在尝试获取用户及其关注者的详细信息(依此类推,直到最后一个节点)。

下面是蜘蛛代码:

从 scrapy.spider 导入 BaseSpider

从 pinners.items 导入scrapy 从scrapy.http 导入PinterestItem 从urlparse 导入FormRequest 导入urlparse

类示例(BaseSpider):

name = 'sample'
allowed_domains = ['pinterest.com']
start_urls = ['https://www.pinterest.com/banka/followers', ]

def parse(self, response):
    for base_url in response.xpath('//div[@class="Module User gridItem"]/a/@href'):
        list_a = response.urljoin(base_url.extract())
        for new_urls in response.xpath('//div[@class="Module User gridItem"]/a/@href'):
            yield scrapy.Request(new_urls, callback=self.Next)
    yield scrapy.Request(list_a, callback=self.Next)

def Next(self, response):
    href_base = response.xpath('//div[@class = "tabs"]/ul/li/a')
    href_board = href_base.xpath('//div[@class="BoardCount Module"]')
    href_pin = href_base.xpath('.//div[@class="Module PinCount"]')
    href_like = href_base.xpath('.//div[@class="LikeCount Module"]')
    href_followers = href_base.xpath('.//div[@class="FollowerCount Module"]')
    href_following = href_base.xpath('.//div[@class="FollowingCount …
Run Code Online (Sandbox Code Playgroud)

screen-scraping scrapy python-2.7

2
推荐指数
1
解决办法
3039
查看次数

标签 统计

python-2.7 ×2

scrapy ×2

r ×1

screen-scraping ×1