HttpWebRequest是否服从.Net中的robots.txt?

Sce*_*cen 2 .net robots.txt web-crawler

我正在为Web开发人员创建一个工具,用于"扫描"他们网站上的HTML.

这需要我的Asp.Net应用程序从他们的站点下载页面.

为了防止滥用,我想确保我遵守robots.txt以及其他方法.

HttpWebRequest已经这样做了吗?或者是否有一个开源实现我可以用来验证给定用户代理字符串的robots.txt文件?

Jon*_*Jon 5

HttpWebRequest只发出一个HTTP请求.它不服从,robots.txt因为它不知道它存在.它需要另一个请求,看看它是否存在并读取其内容,如果它默认情况下这样做,你将有50%的开销.

对于C#实现,请看一下:任何人都有任何C#代码来解析robots.txt并针对它评估URLS