我在Django我还很新我下面这个关于如何整合scrapy和Django的教程。
问题是当我尝试使用我自己的蜘蛛时它是行不通的。我在 django 之外尝试过蜘蛛,它工作得很好,一些帮助会非常有帮助。
这是我的spider.py文件
import scrapy
from scrapy_splash import SplashRequest
class NewsSpider(scrapy.Spider):
name = 'detik'
allowed_domains = ['news.detik.com']
start_urls = ['https://news.detik.com/indeks/all/?date=02/28/2018']
def parse(self, response):
urls = response.xpath("//div/article/a/@href").extract()
for url in urls:
url = response.urljoin(url)
yield scrapy.Request(url=url, callback=self.parse_detail)
# follow pagination link
page_next = response.xpath("//a[@class = 'last']/@href").extract_first()
if page_next:
page_next = response.urljoin(page_next)
yield scrapy.Request(url=page_next, callback=self.parse)
def parse_detail(self,response):
x = {}
x['breadcrumbs'] = response.xpath("//div[@class='breadcrumb']/a/text()").extract(),
x['tanggal'] = response.xpath("//div[@class='date']/text()").extract_first(),
x['penulis'] = response.xpath("//div[@class='author']/text()").extract_first(),
x['judul'] = response.xpath("//h1/text()").extract_first(),
x['berita'] = response.xpath("normalize-space(//div[@class='detail_text'])").extract_first(),
x['tag'] = response.xpath("//div[@class='detail_tag']/a/text()").extract(), …
Run Code Online (Sandbox Code Playgroud) 我对这里的 pytrends api 非常陌生
但是我不明白如何定义偏移时区。教程是这样的
pytrends = TrendReq(hl='en-US', tz=360)
Run Code Online (Sandbox Code Playgroud)
带有 tz 的文档(我假设是时区)
tz :
Timezone Offset
For example US CST is '360'
Run Code Online (Sandbox Code Playgroud)
我尝试到处搜索,但我只是不明白 US CST = 360。请帮助我理解这一点。另外,如果可能的话,我想使用印度尼西亚雅加达时区,即 UTC+7
谢谢