标签: web-crawler

网页抓取和网页抓取有什么区别?

抓取和网络抓取之间有区别吗?

如果存在差异,那么为了收集一些网络数据以供以后在定制搜索引擎中使用的数据库,最好的方法是什么?

search-engine web-crawler web-scraping

85
推荐指数
3
解决办法
6万
查看次数

查找每个Docker镜像的图层和图层大小

出于研究目的,我正在尝试抓取公共Docker注册表(https://registry.hub.docker.com/)并找出1)平均图像有多少层,以及2)这些层的大小以获得分配的想法.

但是我研究了API和公共库以及github上的细节,但是我找不到任何方法:

  • 检索所有公共存储库/图像(即使这些是数千个,我仍然需要一个起始列表来迭代)
  • 找到图像的所有图层
  • 找到图层的大小(所以不是图像,而是单个图层).

任何人都可以帮我找到检索此信息的方法吗?

谢谢!

编辑:是否有人能够验证在Docker注册表中搜索'*'是否返回所有存储库而不是任何在任何地方提到'*'的东西?https://registry.hub.docker.com/search?q=*

image web-crawler docker

78
推荐指数
6
解决办法
7万
查看次数

如何在单个Scrapy项目中为不同的蜘蛛使用不同的管道

我有一个包含多个蜘蛛的scrapy项目.有什么方法可以定义哪些管道用于哪个蜘蛛?并非我所定义的所有管道都适用于每个蜘蛛.

谢谢

python web-crawler scrapy

72
推荐指数
7
解决办法
2万
查看次数

隐藏Bots的电子邮件地址 - 保留mailto:

TL;博士

隐藏机器人的电子邮件地址,而不使用脚本和维护mailto:功能.方法还必须支持屏幕阅读器.


摘要

  • 使用脚本或联系表单进行电子邮件混淆

  • 电子邮件地址需要对人类观看者完全可见保持mailto:功能

  • 电子邮件地址不得为图像格式.

  • 电子邮件地址必须"完全"隐藏在垃圾邮件爬虫和垃圾邮件机器人以及任何其他收集器类型中


期望的效果:

  • 不要脚本.项目中没有使用脚本,我希望保持这种方式.

  • 电子邮件地址可以显示在页面上,也可以在某种用户交互后轻松显示,例如打开模式.

  • 用户可以点击的电子邮件地址,这反过来会触发mailto:功能.

  • 单击该电子邮件将打开用户的电子邮件应用程序.

    换句话说,mailto:功能必须有效.

  • 电子邮件地址不可见或未标识为机器人的电子邮件地址(包括页面源)

  • 我没有充满垃圾邮件的收件箱


什么是工作

  • 添加联系表单 - 或任何类似的 - 而不是电子邮件地址

    我讨厌联系表格.我很少填写联系表格.如果没有电子邮件地址,我会查找电话号码,如果不存在,我会开始寻找替代服务.如果我绝对必须,我只会填写一份联系表格.

  • 用地址图像替换地址

    这对使用屏幕阅读器的人造成了巨大的不利影响(请记住您未来项目中的视障人士)

    它也消除mailto:,除非你使图像可点击,然后添加功能mailto:功能与href您的链接,但失败的目的,现在的电子邮件是机器人可见.


可能有用的:

  • 巧妙地使用pseudo-elementsinCSS

  • 使用base64编码的解决方案

  • 打破 …

html css mailto web-crawler

70
推荐指数
5
解决办法
4万
查看次数

设计网络爬虫

我遇到了一个采访问题"如果你正在设计一个网络爬虫,你将如何避免进入无限循环?"我试图回答它.

这一切从一开始就是如何开始的.比如谷歌开始时,一些中心页面上说有数百个(首先如何找到这些中心页面是一个不同的子问题).当Google跟踪来自页面的链接等时,它是否继续制作哈希表以确保它不遵循先前访问过的页面.

如果同一页面有2个名称(URL),如果我们有URL缩短器等,那么该怎么办呢?

我以谷歌为例.虽然谷歌没有泄漏其网络爬虫算法和页面排名等的工作方式,但任何猜测?

search-engine large-data-volumes web-crawler google-search data-structures

69
推荐指数
2
解决办法
4万
查看次数

有人知道我可以使用基于Python的优秀网络爬虫吗?

我很想写自己的,但我现在没有足够的时间.我已经看过维基百科的开源爬虫列表,但我更喜欢用Python编写的东西.我意识到我可能只是使用维基百科页面上的一个工具并将其包装在Python中.我可能最终会这样做 - 如果有人对这些工具有任何建议,我愿意听到他们的意见.我通过它的网络界面使用了Heritrix,我发现它非常麻烦.我肯定不会为即将推出的项目使用浏览器API.

提前致谢.另外,这是我的第一个问题!

python web-crawler

67
推荐指数
3
解决办法
9万
查看次数

PyPi下载计数似乎不切实际

2个月前第一次在PyPi上了一个软件包,并且从那以后做了一些版本更新.本周我注意到了下载计数记录,并惊讶地看到它被下载了数百次.在接下来的几天里,我更惊讶的是,即使这是一个利基统计测试工具箱,下载次数有时会增加每天数百.特别是,旧版本的软件包继续被下载,有时以比最新版本更高的速率下载.

这里发生了什么?

PyPi的下载计数中是否存在错误,或者是否存在大量抓取开源代码的爬虫(就像我的一样)?

python web-crawler pypi

65
推荐指数
4
解决办法
8801
查看次数

如何在PHP中创建一个简单的爬虫?

我有一个包含大量链接的网页.我想编写一个脚本,将脚本中包含的所有数据转储到本地文件中.

有人用PHP做过吗?一般准则和陷阱就足以作为答案.

php web-crawler

64
推荐指数
6
解决办法
16万
查看次数

如何编写爬虫?

我曾经想过尝试编写一个简单的爬虫,可能会爬行并为我们的NPO网站和内容生成一份调查结果列表.

有没有人对如何做到这一点有任何想法?你在哪里指出爬虫开始?它如何发送回调查结果并继续爬行?它是如何知道它发现的等等.

web-crawler

61
推荐指数
6
解决办法
6万
查看次数

使用GOOGLE在html源代码中搜索?

我有几个网站,我不记得我写了一些代码行.由于我的网页被Google编入索引,我想知道Google是否提供了在HTML源代码/标记本身内进行搜索的工具,不仅仅是允许在视觉,呈现的页面内进行搜索?

谢谢

search search-engine web-crawler keyword

59
推荐指数
3
解决办法
7万
查看次数