抓取和网络抓取之间有区别吗?
如果存在差异,那么为了收集一些网络数据以供以后在定制搜索引擎中使用的数据库,最好的方法是什么?
出于研究目的,我正在尝试抓取公共Docker注册表(https://registry.hub.docker.com/)并找出1)平均图像有多少层,以及2)这些层的大小以获得分配的想法.
但是我研究了API和公共库以及github上的细节,但是我找不到任何方法:
任何人都可以帮我找到检索此信息的方法吗?
谢谢!
编辑:是否有人能够验证在Docker注册表中搜索'*'是否返回所有存储库而不是任何在任何地方提到'*'的东西?https://registry.hub.docker.com/search?q=*
我有一个包含多个蜘蛛的scrapy项目.有什么方法可以定义哪些管道用于哪个蜘蛛?并非我所定义的所有管道都适用于每个蜘蛛.
谢谢
隐藏机器人的电子邮件地址,而不使用脚本和维护mailto:功能.方法还必须支持屏幕阅读器.
不使用脚本或联系表单进行电子邮件混淆
电子邮件地址需要对人类观看者完全可见并保持mailto:功能
电子邮件地址不得为图像格式.
电子邮件地址必须"完全"隐藏在垃圾邮件爬虫和垃圾邮件机器人以及任何其他收集器类型中
请不要脚本.项目中没有使用脚本,我希望保持这种方式.
电子邮件地址可以显示在页面上,也可以在某种用户交互后轻松显示,例如打开模式.
该用户可以点击的电子邮件地址,这反过来会触发mailto:功能.
单击该电子邮件将打开用户的电子邮件应用程序.
换句话说,mailto:功能必须有效.
电子邮件地址不可见或未标识为机器人的电子邮件地址(包括页面源)
我没有充满垃圾邮件的收件箱
添加联系表单 - 或任何类似的 - 而不是电子邮件地址
我讨厌联系表格.我很少填写联系表格.如果没有电子邮件地址,我会查找电话号码,如果不存在,我会开始寻找替代服务.如果我绝对必须,我只会填写一份联系表格.
用地址图像替换地址
这对使用屏幕阅读器的人造成了巨大的不利影响(请记住您未来项目中的视障人士)
它也消除了mailto:,除非你使图像可点击,然后添加功能mailto:功能与href您的链接,但失败的目的,现在的电子邮件是机器人可见.
巧妙地使用pseudo-elementsinCSS
使用base64编码的解决方案
打破 …
我遇到了一个采访问题"如果你正在设计一个网络爬虫,你将如何避免进入无限循环?"我试图回答它.
这一切从一开始就是如何开始的.比如谷歌开始时,一些中心页面上说有数百个(首先如何找到这些中心页面是一个不同的子问题).当Google跟踪来自页面的链接等时,它是否继续制作哈希表以确保它不遵循先前访问过的页面.
如果同一页面有2个名称(URL),如果我们有URL缩短器等,那么该怎么办呢?
我以谷歌为例.虽然谷歌没有泄漏其网络爬虫算法和页面排名等的工作方式,但任何猜测?
search-engine large-data-volumes web-crawler google-search data-structures
我很想写自己的,但我现在没有足够的时间.我已经看过维基百科的开源爬虫列表,但我更喜欢用Python编写的东西.我意识到我可能只是使用维基百科页面上的一个工具并将其包装在Python中.我可能最终会这样做 - 如果有人对这些工具有任何建议,我愿意听到他们的意见.我通过它的网络界面使用了Heritrix,我发现它非常麻烦.我肯定不会为即将推出的项目使用浏览器API.
提前致谢.另外,这是我的第一个问题!
我有一个包含大量链接的网页.我想编写一个脚本,将脚本中包含的所有数据转储到本地文件中.
有人用PHP做过吗?一般准则和陷阱就足以作为答案.
我曾经想过尝试编写一个简单的爬虫,可能会爬行并为我们的NPO网站和内容生成一份调查结果列表.
有没有人对如何做到这一点有任何想法?你在哪里指出爬虫开始?它如何发送回调查结果并继续爬行?它是如何知道它发现的等等.
我有几个网站,我不记得我写了一些代码行.由于我的网页被Google编入索引,我想知道Google是否提供了在HTML源代码/标记本身内进行搜索的工具,而不仅仅是允许在视觉,呈现的页面内进行搜索?
谢谢