制作网络爬虫/蜘蛛

Bel*_*ish 5 web-crawler

我正在研究制作一个网络爬虫/蜘蛛,但我需要有人指出我正确的方向开始.

基本上,我的蜘蛛将搜索音频文件并将其编入索引.

我只是想知道是否有人对我应该怎么做有任何想法.我听说用PHP完成它会非常慢.我知道vb.net可以派上用场吗?

我正在考虑使用Googles文件类型搜索来获取爬网链接.那可以吗?

Chr*_*ver 2

在 VB.NET 中,您需要首先获取 HTML,因此请使用 WebClient 类或 HttpWebRequest 和 HttpWebResponse 类。互联网上有很多关于如何使用这些的信息。

然后你需要解析 HTML。我建议为此使用正则表达式。

您使用 Google 进行文件类型搜索的想法是一个很好的想法。几年前,我做了类似的事情来收集 PDF 来测试 SharePoint 中的 PDF 索引,效果非常好。

  • 关于使用正则表达式解析 HTML...http://stackoverflow.com/questions/1732348/regex-match-open-tags- except-xhtml-self-contained-tags 可能是有史以来最好的答案。 (2认同)