标签: robots.txt

Python Mechanize HTTP 错误 403：robots.txt 不允许请求

因此，我创建了一个 Django 网站来从网络上抓取新闻网页以获取文章。即使我使用 mechanize，他们仍然告诉我：

HTTP Error 403: request disallowed by robots.txt

Run Code Online (Sandbox Code Playgroud)

我尝试了一切，看看我的代码（只是要抓取的部分）：

br = mechanize.Browser()
page = br.open(web)
br.set_handle_robots(False)
br.set_handle_equiv(False)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
    #BeautifulSoup 
htmlcontent = page.read()
soup = BeautifulSoup(htmlcontent)

Run Code Online (Sandbox Code Playgroud)

我也尝试在 set_hande_robots(Flase) 等之前使用 de br.open 。它也不起作用。

有什么办法可以通过这个网站吗？

python django robots.txt mechanize beautifulsoup

作者

2021 02-14

1
推荐指数

1
解决办法

4611
查看次数

在express中渲染robots.txt的ejs模板

我想在 Express 中使用 robots.txt 文件中的一些变量。

如何将此文件呈现为 EJS 模板？我已经让 EJS 可以处理 .html 文件。

app.route('/robots.txt')
    .get(index.robotstxt);


/**
 * Send robotstxt file
 */
exports.robotstxt = function (req, res) {
    res.type('text/plain');
    res.render('robots.txt', {
        home: config.home
    });
};


# robotstxt.org

User-agent: *
Disallow: /settings
Disallow: /account/
Allow: /

sitemap: <%= home %>/sitemap.xml

Run Code Online (Sandbox Code Playgroud)

目前，我刚刚收到以下错误：

Error: Cannot find module 'txt' at Function.Module._resolveFilename (module.js:338:15) at Function.Module._load (module.js:280:25) at Module.require (module.js:364:17) at require (module.js:380:17) at new View (/Users/user/projects/app/node_modules/express/lib/view.js:43:49) at Function.app.render (/Users/user/projects/app/node_modules/express/lib/application.js:484:12) at ServerResponse.res.render (/Users/user/projects/app/node_modules/express/lib/response.js:777:7) at Object.exports.robotstxt [as handle] (/Users/user/projects/app/lib/controllers/index.js:29:6) …

Run Code Online (Sandbox Code Playgroud)

robots.txt node.js express

cho*_*ovy

2014 08-09

1
推荐指数

1
解决办法

1526
查看次数

更改 Python 中与 robotsparser 一起使用的用户代理

我正在使用robotparserPython 中的 urlib 模块来确定是否可以下载网页。然而，当通过默认用户代理访问 robots.txt 文件时，我正在访问的一个站点会返回 403 错误，但如果通过使用我的用户代理字符串的请求下载，则会返回正确的响应。（当使用请求包默认用户代理访问时，该网站还会给出 403，表明它们只是阻止常见/通用用户代理字符串，而不是将它们添加到 robots.txt 文件中）。

无论如何，是否可以更改 rootparser 模块中的用户代理？或者，加载单独下载的 robots.txt 文件？

python robots.txt web-scraping python-3.x

kyr*_*nia

lucky-day

1
推荐指数

1
解决办法

783
查看次数

robots.txt 并禁止绝对路径 URL

我正在使用 Heroku 管道。因此，当我推送应用程序时，它会被推送到暂存应用程序

https://appname.herokuapp.com/

Run Code Online (Sandbox Code Playgroud)

如果一切正确，我就会将该应用程序推广到生产环境。没有新的构建过程。这是第一次构建用于登台的同一个应用程序。

https://appname.com/

Run Code Online (Sandbox Code Playgroud)

问题是这会导致重复内容的问题。站点是彼此的克隆。一模一样。我想从 Google 索引和搜索引擎中排除暂存应用程序。

我想到的一种方法是使用robots.txt文件。

为了这个工作我应该这样写

User-agent: *
Disallow: https://appname.herokuapp.com/

Run Code Online (Sandbox Code Playgroud)

使用绝对路径，因为该文件将位于暂存和生产应用程序的服务器上，我只想从 Google 索引中删除暂存应用程序，而不是触及生产应用程序。

这是正确的做法吗？

seo robots.txt heroku noindex

Igo*_*Vuk

lucky-day

1
推荐指数

1
解决办法

3042
查看次数

我是否可以允许(通过搜索引擎)索引限制内容而不公开？

我的网站内容有限.我希望我的网站出现在搜索结果中,但我不希望它公开.

有没有办法允许抓取工具抓取我的网站,但阻止他们公开？

我找到的最接近的解决方案是Google First Click Free,但它甚至要求我第一次显示内容.

seo robots.txt web-crawler

Jag*_*ira

lucky-day

0
推荐指数

1
解决办法

2009
查看次数

从txt文件解析url

我试图解析一个如下所示的txt文件:

Disallow: /cyberworld/map/ # This is an infinite virtual URL space
Disallow: /tmp/ # these will soon disappear
Disallow: /foo.html

Run Code Online (Sandbox Code Playgroud)

我需要读取文件并在"Disallow"之后用url提取部分,但也忽略了注释.提前致谢.

python parsing robots.txt

use*_*565

lucky-day

0
推荐指数

1
解决办法

215
查看次数

当我有 robots.txt 时，我应该删除元机器人（索引、关注）吗？

如果我希望搜索引擎遵循我的 robots.txt 规则，我有点困惑是否应该删除 robots 元标记。

如果页面上存在 robots 元标记（索引、follow），搜索引擎是否会忽略我的 robots.txt 文件并在我的 robots.txt 中索引指定的不允许的 URL？

我问这个问题的原因是搜索引擎（主要是谷歌）仍然索引我网站上不允许的页面。

seo robots.txt meta-tags

Cfr*_*rim

2014 10-17

0
推荐指数

1
解决办法

1274
查看次数

Robots.txt文件

我在robots.txt文件中使用此代码:

User-agent: *

Disallow:

Run Code Online (Sandbox Code Playgroud)

但是,我的竞争对手正在使用

User-agent: *

Disallow: /

Run Code Online (Sandbox Code Playgroud)

他的网站在谷歌和排名第一的表现都很好.但我的网站没有排名.我检查了我网站上的所有内容,没关系.但是我的竞争对手在Google中表现如何？robots.txt文件无关紧要吗？

robots.txt

Rak*_*khi

2015 06-06

0
推荐指数

1
解决办法

2176
查看次数

禁止某些图像文件夹

我正在制作我的 robots.txt 文件。但我对如何禁用 Googlebot-Image 有点不安全。我想允许谷歌机器人抓取我的网站，除了我在下面做的禁止。这是我做的：

User-agent: Googlebot
Disallow:

Disallow: /courses/
Disallow: /portfolio/portfolio-template.php/

User-agent: Googlebot-Image
Disallow: 
/images/graphics/erhvervserfaring/
/images/graphics/uddannelse/

sitemap: http://www.example.com/sitemap.xml

Run Code Online (Sandbox Code Playgroud)

应该将 User-agent:Googlebot和User-agent: Googlebot-Image写在一起，所以是这个？：

用户代理：Googlebot-Image 用户代理：Googlebot 禁止：

Disallow: /courses/
          /portfolio/portfolio-template.php/
          /images/graphics/erhvervserfaring/
          /images/graphics/uddannelse/

Run Code Online (Sandbox Code Playgroud)

seo robots.txt web-crawler

Ne *_* Kr

2016 12-31

0
推荐指数

1
解决办法

858
查看次数

如何在 Django 上制作 robots.txt

我在这里看到了其他答案，但它们并没有真正的帮助，这就是我问的原因。我也尝试了 django-robots 框架，但是当我将“机器人”放入 INSTALLED_APPS 时，它给了我一个错误

INSTALLED_APPS = [
'index.apps.IndexConfig',
'django.contrib.admin',
'django.contrib.auth',
'django.contrib.contenttypes',
'django.contrib.sessions',
'django.contrib.messages',
'django.contrib.staticfiles',
'django.contrib.sitemaps',
]

Run Code Online (Sandbox Code Playgroud)

sitemap django robots.txt

rey*_*ipt

lucky-day

0
推荐指数

1
解决办法

2438
查看次数