小编Inê*_*ins的帖子

Scrapy 错误：下载错误 - 无法打开 CONNECT 隧道

我已经写了一个蜘蛛来爬取https://tecnoblog.net/categoria/review/但是当我让蜘蛛爬行时，出现了一个错误：

2015-05-19 15:13:20+0100 [scrapy] INFO: Scrapy 0.24.5 started (bot: reviews)
2015-05-19 15:13:20+0100 [scrapy] INFO: Optional features available: ssl, http11
2015-05-19 15:13:20+0100 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'reviews.spiders', 'SPIDER_MODULES': ['reviews.spiders'], 'DOWNLOAD_DELAY': 0.25, 'BOT_NAME': 'reviews'}
2015-05-19 15:13:20+0100 [scrapy] INFO: Enabled extensions: LogStats, TelnetConsole, CloseSpider, WebService, CoreStats, SpiderState
2015-05-19 15:13:20+0100 [scrapy] INFO: Enabled downloader middlewares: ProxyMiddleware, HttpAuthMiddleware, DownloadTimeoutMiddleware, RotateUserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-05-19 15:13:20+0100 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-05-19 15:13:20+0100 [scrapy] …

Run Code Online (Sandbox Code Playgroud)

scrapy scrapy-spider

Inê*_*ins

lucky-day

6
推荐指数

1
解决办法

6111
查看次数

Scrapy 使用随机代理池来避免被禁止

我对 scrapy 很陌生（而且我的背景不是信息学）。我有一个网站，我无法使用我的本地 IP 访问，因为我被禁止，我可以使用浏览器上的 VPN 服务访问它。为了让我的蜘蛛能够爬行它，我设置了一个代理池，我在这里找到了http://proxylist.hidemyass.com/。这样我的蜘蛛就能够爬行和抓取项目，但我怀疑我是否必须每天更改代理池列表？抱歉，如果我的问题很愚蠢......

这是我的设置.py：

BOT_NAME = 'reviews'

SPIDER_MODULES = ['reviews.spiders']
NEWSPIDER_MODULE = 'reviews.spiders'
DOWNLOAD_DELAY = 1
RANDOMIZE_DOWNLOAD_DELAY = True

DOWNLOADER_MIDDLEWARES = {
        'scrapy.contrib.downloadermiddleware.httpcompression.HttpCompressionMiddleware':None, # to avoid the raise IOError, 'Not a gzipped file' exceptions.IOError: Not a gzipped file
        'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,
        'reviews.rotate_useragent.RotateUserAgentMiddleware' :400,
        'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110, 
        'reviews.middlewares.ProxyMiddleware': 100,
    }

PROXIES = [{'ip_port': '168.63.249.35:80', 'user_pass': ''},
           {'ip_port': '162.17.98.242:8888', 'user_pass': ''},
           {'ip_port': '70.168.108.216:80', 'user_pass': ''},
           {'ip_port': '45.64.136.154:8080', 'user_pass': ''},
           {'ip_port': '149.5.36.153:8080', 'user_pass': ''},
           {'ip_port': '185.12.7.74:8080', …

Run Code Online (Sandbox Code Playgroud)

https proxy user-agent http scrapy

Inê*_*ins

2015 05-20

5
推荐指数

2
解决办法

1万
查看次数

Python Tesseract OCR训练到特定单词列表

我对OCR和Tesseract还是陌生的。

到目前为止，我有一个工作脚本可以从图像中提取相当不错的文本。

我的疑问：是否可以训练tesseract以仅检索某种词典文件中显示的单词/字符？

例如，我有一个.txt，其中包含很多人的名字，我想训练Tesseract：“ SONIA”不是“ 50NlA”，“ YANNICK”不是“ VANNlD”，等等。

如果它具有所有可能名称的列表，将能够提供更好的准确性？如果原始图像是带有很多人名和有关该人的其他信息的文本，但是我只想从ocr中检索名字而忽略“嘈杂的信息”，该怎么办？抱歉，这是一个愚蠢的问题。

我已经阅读了https://groups.google.com/forum/#!topic/tesseract-ocr/r5qkHxQOT98和手册http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1。 html并创建eng.user-words和市集文件...下一步应该做什么？由于它给了我相同的输出...

非常感谢您的时间和耐心。

python string ocr tesseract image-processing

Inê*_*ins

2015 06-16

5
推荐指数

0
解决办法

1803
查看次数

Scrapy - 激活项目管道组件 - ITEM_PIPELINES 设置

scrapy文档中有这样的信息：

\n\n

\n
激活项目管道组件
\n\n
要激活项目管道组件，您必须将其类添加到\n ITEM_PIPELINES 设置，如以下示例所示：
\n\n
ITEM_PIPELINES = {\n \'myproject.pipelines.PricePipeline\': 300,\n \'myproject.pipelines.JsonWriterPipeline\': 800, }
\n\n
您在此设置中分配给类的整数值决定了它们运行的顺序 - 项目从顺序号低到高的顺序通过管道。通常将这些数字定义在 0-1000 范围内。
\n

\n\n

我不明白最后一段，主要是“确定它们运行的顺序-项目从顺序号低到高的顺序通过管道”，你能换句话解释一下吗？选择这些数字的原因是什么？范围是0-1000如何选择值？

python settings pipeline scrapy

Inê*_*ins

lucky-day

3
推荐指数

1
解决办法

1457
查看次数

好的形象,但没有来自OCR的文字,为什么？Python,Skimage,PIL,Tesseract

我对图像处理,CV和OCR都很陌生.到目前为止,我认为这是一个惊人的主题,我愿意进一步挖掘它.

想象一下,我有这个原始图像: 原始页面

我把它调整到这个:

然后我找到了区域最大值并获得此图像(以避免更轻的背景和太嘈杂的): 区域千里马

然后将上面的图像提交到阈值并处理具有此图像: Tresholded 在我看来,这个图像不是100%二进制...如果我放大它,它会在字符内显示一些灰色像素......

我认为最后一张图片应该足够/(非常好,确实)用于OCR,你不觉得吗？但是没有文字出来......

我的代码:

#http://stackoverflow.com/questions/18813300/finding-the-coordinates-of-maxima-in-an-image
from PIL import *
from PIL import Image
import numpy as np
from skimage import io
from skimage import img_as_float
from scipy.ndimage import gaussian_filter
from skimage.morphology import reconstruction
import pytesseract

im111 = Image.open('page.jpg')

basewidth = 1000
wpercent = (basewidth / float(im111.size[0]))
hsize = int((float(im111.size[1]) * float(wpercent)))
image_resized = im111.resize((basewidth, hsize), Image.ANTIALIAS)
image_resized.save('page2.jpg')

image = img_as_float(io.imread('page2.jpg', as_grey=True))
image = gaussian_filter(image, 1)
seed = np.copy(image)
seed[1:-1, 1:-1] = image.min()
mask = image
dilated …

Run Code Online (Sandbox Code Playgroud)

ocr tesseract image-processing python-imaging-library scikit-image

Inê*_*ins

2015 07-16

3
推荐指数

1
解决办法

2011
查看次数