我正在尝试使用 selenium 运行网页抓取
这个robot.txt内容是什么意思?
User-Agent: *
Disallow: /go/
Disallow: /launch-announcement/
Run Code Online (Sandbox Code Playgroud)
我可以在除 go 和 launch-announcement 之外的所有文件夹中运行网页抓取吗?
什么是 robots.txt 文件?
\nRobots.txt 是网站管理员创建的文本文件,用于指导网络机器人(通常是搜索引擎机器人)如何抓取其网站上的页面。robots.txt 文件是机器人排除协议 (REP) 的一部分,这是一组网络标准,用于规范机器人如何抓取网络、访问和索引内容以及向用户提供内容。REP 还包括元机器人等指令,以及搜索引擎应如何处理链接的页面、子目录或站点范围指令(例如 \xe2\x80\x9cfollow\xe2\x80\x9d 或 \xe2\x80 \x9cnofollow\xe2\x80\x9d)。
\n实际上,robots.txt 文件指示某些用户代理(网络抓取软件)是否可以抓取网站的某些部分。这些爬网指令由 \xe2\x80\x9cdisallowing\xe2\x80\x9d 或 \xe2\x80\x9callowing\xe2\x80\x9d 某些(或所有)用户代理的行为指定。查看更多...
\n禁止:告诉机器人它不应该访问网站上提到的页面。
\n我可以在除 go 和 launch-announcement 之外的所有文件夹中运行网页抓取吗?
\n是的,您可以抓取除这 2 页之外的其他页面。
\n| 归档时间: |
|
| 查看次数: |
5738 次 |
| 最近记录: |