标签: robots.txt

限制(特定)查询字符串(参数)值的机器人访问？

使用robot.txt是否可以限制(特定)查询字符串(参数)值的机器人访问？

即

http://www.url.com/default.aspx  #allow
http://www.url.com/default.aspx?id=6  #allow
http://www.url.com/default.aspx?id=7  #disallow

Run Code Online (Sandbox Code Playgroud)

seo robots.txt

ins*_*ite

lucky-day

3
推荐指数

1
解决办法

1378
查看次数

Python Robotparser 超时等效项

Python 3.3.0 有没有办法设置 robotsparser.read() 函数的超时时间？（比如在 urllib.request urlopen 中）

60 秒的默认超时时间有点过分。

（我正在自学 Python。）

Python 3.3.0 - 机器人解析器

Python 3.3.0 - urllib.request

python robots.txt python-3.x

Ter*_*nce

2013 03-06

3
推荐指数

1
解决办法

515
查看次数

禁止搜索引擎抓取工具,但允许谷歌分析

我的Google Analytics似乎无效,因为我已阻止所有用户代理.我的网站仍然处于测试版,所以我不想让搜索引擎看到,但我仍然希望观看我的网站分析数据.

如何在robots.txt中允许Google Analytics？

google-analytics search-engine robots.txt web-crawler

Nov*_*ato

2017 06-21

3
推荐指数

1
解决办法

2583
查看次数

robots.txt.dist 有何用途？

在 Joomla (CMS) 中，安装附带一个名为“robots.txt.dist”的文件。我知道 robots.txt 的用途，但不知道为什么会存在 .dist 版本。安装附带一个普通的 robots.txt，在我看来，这使得不需要其他文件。

joomla robots.txt

Jos*_*wis

lucky-day

3
推荐指数

1
解决办法

8251
查看次数

robots.txt 中的通配符

如果在 WordPress 网站中，我按以下顺序分类：

-Parent
--Child
---Subchild

Run Code Online (Sandbox Code Playgroud)

我将永久链接设置为：%category%/%postname%

让我们举个例子。我创建帖子名称为“体育游戏”。它的标签是运动游戏。它的完整网址是：domain.com/parent/child/subchild/sport-game 为什么我使用这种永久链接正是为了更容易地阻止robots.txt 中的某些内容。

现在这是我有疑问的部分。在 robots.txt 中：

User-agent: Googlebot
Disallow: /parent/*
Disallow: /parent/*/*
Disallow: /parent/*/*/*

Run Code Online (Sandbox Code Playgroud)

Disallow: /parent/*这个规则的意思是它是阻塞domain.com/parent/child但不是domain.com/parent/child/subchild和不是domain.com/parent/？

Disallow: /parent/*/*/*这是否意味着它正在阻止domain.com/parent/child/subchild/，它只阻止子子项，而不是子项，不是父项，而不是子子项下的帖子？

robots.txt web-crawler

use*_*424

lucky-day

3
推荐指数

1
解决办法

1851
查看次数

我正在尝试使用 Node.js 查找域上的所有页面。我在 Stackoverflow 上搜索，但我发现的只是 Ruby 的这个线程：Find all the web Pages in a domain and its subdomains - 我有同样的问题，但对于 Node.js 来说。我也用谷歌搜索了这个问题，但我发现的只是一些抓取工具，它们找不到自行抓取的链接。我也在搜索“站点地图生成器”、“网页机器人”、“自动抓取”、“使用 Node 获取域上的所有页面”之类的内容，但没有带来任何结果。

我有一个抓取工具，需要处理一系列链接，例如我有一个页面 www.example.com/products/，我想在其中找到所有现有的子页面，例如 www.example.com/products/product1 .html、www.example.com/products/product2.html 等

你能告诉我如何在 Node 中实现它吗？

sitemap robots.txt node.js

Jev*_*tin

2017 05-23

3
推荐指数

1
解决办法

3851
查看次数

允许抓取Javascript和CSS文件

这是阻止还是允许谷歌机器人访问？

User-Agent: Googlebot
Allow: /*.js*

Allow: /*.css*

Run Code Online (Sandbox Code Playgroud)

有人知道上面robots.txt格式阻止或允许谷歌Bot访问？

seo robots.txt

S S*_*S S

2015 07-29

3
推荐指数

1
解决办法

5145
查看次数

使用 Mechanize 进行抓取，遇到 HTTP 错误 403

得到后

mechanize._response.httperror_seek_wrapper：HTTP 错误 403：robots.txt 不允许请求

使用 Mechanize 时，从屏幕抓取中添加了代码：绕过“HTTP 错误 403：robots.txt 不允许请求”以忽略 robots.txt，但现在收到此错误：

mechanize._response.httperror_seek_wrapper：HTTP 错误 403：禁止

有没有办法解决这个错误？

（当前代码）

br = mechanize.Browser()
br.set_handle_robots(False)

Run Code Online (Sandbox Code Playgroud)

python robots.txt mechanize web-scraping

McL*_*odx

2017 05-23

3
推荐指数

1
解决办法

4808
查看次数

使用 X-Robot-Tag 代替 robots.txt 有什么优势吗？

看起来有两种主流的解决方案可以指示爬虫索引什么和不索引：添加 X-Robot-Tag HTTP 标头，或指示 robots.txt。

使用前者有什么好处吗？

robots.txt http http-headers web

Cis*_*tin

lucky-day

3
推荐指数

1
解决办法

572
查看次数

Robots.txt 禁止使用正则表达式的路径

是否robots.txt接受正则表达式？我有很多URL这种格式的：

https://example.com/view/99/title-sample-text
ID ----------------------^
Title -----------------------------^

Run Code Online (Sandbox Code Playgroud)

我用过这个：

Disallow: /view

Run Code Online (Sandbox Code Playgroud)

但是看起来这不起作用，因为google索引了更多页面。所以我想用正则表达式来做到这一点，就像这样：

Disallow: /view/([0-9]+)/([^/]*)

Run Code Online (Sandbox Code Playgroud)

但这是正确的格式还是在中有效robots.txt？

seo robots.txt

Pad*_*deh

2017 12-06

3
推荐指数

1
解决办法

2440
查看次数

标签统计

robots.txt ×10

seo ×3

python ×2

web-crawler ×2

google-analytics ×1

http ×1

http-headers ×1

joomla ×1

mechanize ×1

node.js ×1

python-3.x ×1

search-engine ×1

sitemap ×1

web ×1

web-scraping ×1

标签 统计

标签统计