使用robot.txt是否可以限制(特定)查询字符串(参数)值的机器人访问?
即
http://www.url.com/default.aspx #allow
http://www.url.com/default.aspx?id=6 #allow
http://www.url.com/default.aspx?id=7 #disallow
Run Code Online (Sandbox Code Playgroud) Python 3.3.0 有没有办法设置 robotsparser.read() 函数的超时时间?(比如在 urllib.request urlopen 中)
60 秒的默认超时时间有点过分。
(我正在自学 Python。)
我的Google Analytics似乎无效,因为我已阻止所有用户代理.我的网站仍然处于测试版,所以我不想让搜索引擎看到,但我仍然希望观看我的网站分析数据.
如何在robots.txt中允许Google Analytics?
在 Joomla (CMS) 中,安装附带一个名为“robots.txt.dist”的文件。我知道 robots.txt 的用途,但不知道为什么会存在 .dist 版本。安装附带一个普通的 robots.txt,在我看来,这使得不需要其他文件。
如果在 WordPress 网站中,我按以下顺序分类:
-Parent
--Child
---Subchild
Run Code Online (Sandbox Code Playgroud)
我将永久链接设置为:%category%/%postname%
让我们举个例子。我创建帖子名称为“体育游戏”。它的标签是运动游戏。它的完整网址是:domain.com/parent/child/subchild/sport-game 为什么我使用这种永久链接正是为了更容易地阻止robots.txt 中的某些内容。
现在这是我有疑问的部分。在 robots.txt 中:
User-agent: Googlebot
Disallow: /parent/*
Disallow: /parent/*/*
Disallow: /parent/*/*/*
Run Code Online (Sandbox Code Playgroud)
Disallow: /parent/*
这个规则的意思是它是阻塞domain.com/parent/child
但不是domain.com/parent/child/subchild
和不是domain.com/parent/
?
Disallow: /parent/*/*/*
这是否意味着它正在阻止domain.com/parent/child/subchild/
,它只阻止子子项,而不是子项,不是父项,而不是子子项下的帖子?
我正在尝试使用 Node.js 查找域上的所有页面。我在 Stackoverflow 上搜索,但我发现的只是 Ruby 的这个线程:Find all the web Pages in a domain and its subdomains - 我有同样的问题,但对于 Node.js 来说。我也用谷歌搜索了这个问题,但我发现的只是一些抓取工具,它们找不到自行抓取的链接。我也在搜索“站点地图生成器”、“网页机器人”、“自动抓取”、“使用 Node 获取域上的所有页面”之类的内容,但没有带来任何结果。
我有一个抓取工具,需要处理一系列链接,例如我有一个页面 www.example.com/products/,我想在其中找到所有现有的子页面,例如 www.example.com/products/product1 .html、www.example.com/products/product2.html 等
你能告诉我如何在 Node 中实现它吗?
这是阻止还是允许谷歌机器人访问?
User-Agent: Googlebot
Allow: /*.js*
Allow: /*.css*
Run Code Online (Sandbox Code Playgroud)
有人知道上面robots.txt格式阻止或允许谷歌Bot访问?
得到后
mechanize._response.httperror_seek_wrapper:HTTP 错误 403:robots.txt 不允许请求
使用 Mechanize 时,从屏幕抓取中添加了代码:绕过“HTTP 错误 403:robots.txt 不允许请求”以忽略 robots.txt,但现在收到此错误:
mechanize._response.httperror_seek_wrapper:HTTP 错误 403:禁止
有没有办法解决这个错误?
(当前代码)
br = mechanize.Browser()
br.set_handle_robots(False)
Run Code Online (Sandbox Code Playgroud) 看起来有两种主流的解决方案可以指示爬虫索引什么和不索引:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt。
使用前者有什么好处吗?
是否robots.txt
接受正则表达式?我有很多URL
这种格式的:
https://example.com/view/99/title-sample-text
ID ----------------------^
Title -----------------------------^
Run Code Online (Sandbox Code Playgroud)
我用过这个:
Disallow: /view
Run Code Online (Sandbox Code Playgroud)
但是看起来这不起作用,因为google
索引了更多页面。所以我想用正则表达式来做到这一点,就像这样:
Disallow: /view/([0-9]+)/([^/]*)
Run Code Online (Sandbox Code Playgroud)
但这是正确的格式还是在 中有效robots.txt
?
robots.txt ×10
seo ×3
python ×2
web-crawler ×2
http ×1
http-headers ×1
joomla ×1
mechanize ×1
node.js ×1
python-3.x ×1
sitemap ×1
web ×1
web-scraping ×1