我正在制作一个Python网络爬虫程序来玩维基游戏.
如果你不熟悉这个游戏:
我这样做的过程是:
path_crawler_took+goal_article path_crawler_took+intermediate_article+goal我有一个问题,程序将返回一个路径,但路径不会真正链接到目标.
def get_all_links(source):
source = source[:source.find('Edit section: References')]
source = source[:source.find('id="See_also"')]
links=findall('\/wiki\/[^\(?:/|"|\#)]+',source)
return list(set(['http://en.wikipedia.org'+link for link in links if is_good(link) and link]))
links_to_goal = get_all_links(goal)
Run Code Online (Sandbox Code Playgroud)
我意识到我通过抓取目标页面上的所有链接来获取目标的链接,但是wiki/links是单向的:仅仅因为目标链接到页面并不意味着页面链接到目标.
如何获得链接到目标的文章列表?