标签: robots.txt

限制(特定)查询字符串(参数)值的机器人访问?

使用robot.txt是否可以限制(特定)查询字符串(参数)值的机器人访问?

http://www.url.com/default.aspx  #allow
http://www.url.com/default.aspx?id=6  #allow
http://www.url.com/default.aspx?id=7  #disallow
Run Code Online (Sandbox Code Playgroud)

seo robots.txt

3
推荐指数
1
解决办法
1378
查看次数

Python Robotparser 超时等效项

Python 3.3.0 有没有办法设置 robotsparser.read() 函数的超时时间?(比如在 urllib.request urlopen 中)

60 秒的默认超时时间有点过分。

(我正在自学 Python。)

Python 3.3.0 - 机器人解析器

Python 3.3.0 - urllib.request

python robots.txt python-3.x

3
推荐指数
1
解决办法
515
查看次数

禁止搜索引擎抓取工具,但允许谷歌分析

我的Google Analytics似乎无效,因为我已阻止所有用户代理.我的网站仍然处于测试版,所以我不想让搜索引擎看到,但我仍然希望观看我的网站分析数据.

如何在robots.txt中允许Google Analytics?

google-analytics search-engine robots.txt web-crawler

3
推荐指数
1
解决办法
2583
查看次数

robots.txt.dist 有何用途?

在 Joomla (CMS) 中,安装附带一个名为“robots.txt.dist”的文件。我知道 robots.txt 的用途,但不知道为什么会存在 .dist 版本。安装附带一个普通的 robots.txt,在我看来,这使得不需要其他文件。

joomla robots.txt

3
推荐指数
1
解决办法
8251
查看次数

robots.txt 中的通配符

如果在 WordPress 网站中,我按以下顺序分类:

-Parent
--Child
---Subchild
Run Code Online (Sandbox Code Playgroud)

我将永久链接设置为:%category%/%postname%

让我们举个例子。我创建帖子名称为“体育游戏”。它的标签是运动游戏。它的完整网址是:domain.com/parent/child/subchild/sport-game 为什么我使用这种永久链接正是为了更容易地阻止robots.txt 中的某些内容。

现在这是我有疑问的部分。在 robots.txt 中:

User-agent: Googlebot
Disallow: /parent/*
Disallow: /parent/*/*
Disallow: /parent/*/*/*
Run Code Online (Sandbox Code Playgroud)

Disallow: /parent/*这个规则的意思是它是阻塞domain.com/parent/child但不是domain.com/parent/child/subchild和不是domain.com/parent/

Disallow: /parent/*/*/*这是否意味着它正在阻止domain.com/parent/child/subchild/,它只阻止子子项,而不是子项,不是父项,而不是子子项下的帖子?

robots.txt web-crawler

3
推荐指数
1
解决办法
1851
查看次数

使用 NodeJS 查找域上的所有页面

我正在尝试使用 Node.js 查找域上的所有页面。我在 Stackoverflow 上搜索,但我发现的只是 Ruby 的这个线程:Find all the web Pages in a domain and its subdomains - 我有同样的问题,但对于 Node.js 来说。我也用谷歌搜索了这个问题,但我发现的只是一些抓取工具,它们找不到自行抓取的链接。我也在搜索“站点地图生成器”、“网页机器人”、“自动抓取”、“使用 Node 获取域上的所有页面”之类的内容,但没有带来任何结果。

我有一个抓取工具,需要处理一系列链接,例如我有一个页面 www.example.com/products/,我想在其中找到所有现有的子页面,例如 www.example.com/products/product1 .html、www.example.com/products/product2.html 等

你能告诉我如何在 Node 中实现它吗?

sitemap robots.txt node.js

3
推荐指数
1
解决办法
3851
查看次数

允许抓取Javascript和CSS文件

这是阻止还是允许谷歌机器人访问?

User-Agent: Googlebot
Allow: /*.js*

Allow: /*.css*
Run Code Online (Sandbox Code Playgroud)

有人知道上面robots.txt格式阻止或允许谷歌Bot访问?

seo robots.txt

3
推荐指数
1
解决办法
5145
查看次数

使用 Mechanize 进行抓取,遇到 HTTP 错误 403

得到后

mechanize._response.httperror_seek_wrapper:HTTP 错误 403:robots.txt 不允许请求

使用 Mechanize 时,从屏幕抓取中添加了代码:绕过“HTTP 错误 403:robots.txt 不允许请求”以忽略 robots.txt,但现在收到此错误:

mechanize._response.httperror_seek_wrapper:HTTP 错误 403:禁止

有没有办法解决这个错误?

(当前代码)

br = mechanize.Browser()
br.set_handle_robots(False)
Run Code Online (Sandbox Code Playgroud)

python robots.txt mechanize web-scraping

3
推荐指数
1
解决办法
4808
查看次数

使用 X-Robot-Tag 代替 robots.txt 有什么优势吗?

看起来有两种主流的解决方案可以指示爬虫索引什么和不索引:添加 X-Robot-Tag HTTP 标头,或指示 robots.txt。

使用前者有什么好处吗?

robots.txt http http-headers web

3
推荐指数
1
解决办法
572
查看次数

Robots.txt 禁止使用正则表达式的路径

是否robots.txt接受正则表达式?我有很多URL这种格式的:

https://example.com/view/99/title-sample-text
ID ----------------------^
Title -----------------------------^
Run Code Online (Sandbox Code Playgroud)

我用过这个:

Disallow: /view
Run Code Online (Sandbox Code Playgroud)

但是看起来这不起作用,因为google索引了更多页面。所以我想用正则表达式来做到这一点,就像这样:

Disallow: /view/([0-9]+)/([^/]*)
Run Code Online (Sandbox Code Playgroud)

但这是正确的格式还是在 中有效robots.txt

seo robots.txt

3
推荐指数
1
解决办法
2440
查看次数