我如何访问随机网站? - 蟒蛇

alv*_*vas 3 python browser random url web

无论语言如何,如何生成随机但有效的网站链接.实际上,它产生的网站语言越多样化,就越好.

我一直在他们的网页上使用其他人的脚本来做这件事,我怎么能不依赖这些随机的网站转发脚本并制作我自己的?.我一直在这样做:

import webbrowser
from random import choice
random_page_generator = ['http://www.randomwebsite.com/cgi-bin/random.pl',
                         'http://www.uroulette.com/visit']
webbrowser.open(choice(random_page_generator), new=2)
Run Code Online (Sandbox Code Playgroud)

aba*_*ert 7

我一直在他们的网页上使用其他人的脚本来做这件事,我怎么能不依赖这些随机的网站转发脚本并制作我自己的?

有两种方法可以做到这一点:

  • 创建自己的蜘蛛,收集大量网站,并从该集合中挑选.
  • 访问一些预先存在的网站集合,并从该集合中选择.例如,DMOZ/ODP允许您下载整个数据库 ;*Google曾经拥有自定义的随机站点URL;**等.

除此之外没有其他方法(没有随机生成和测试任意字符的有效字符串,这将是一个非常糟糕的主意).

为自己构建一个Web蜘蛛可能是一个有趣的项目.像Scrapy这样的链接驱动的抓取库可以为你做很多繁重的工作,让你写下你关心的部分.


*请注意,与谷歌或雅虎相比,ODP是一个非常小的数据库,因为它主要是由人工编辑的重要网站集合,而不是自动生成的任何人都放在网络上的集合.

**Google的随机网站功能受到受欢迎程度和您自己的搜索记录的影响.但是,通过向其提供空的搜索历史记录,您可以删除等式中的那一部分.无论如何,我认为它不再存在.

  • 可能是因为它不是他们想要看到的,或者是假设一种居高临下的语调.+1使用`spider`关键字,这是一个很好的研究跳跃点. (3认同)