无法找到robots.txt阻止的互联网页面

-1 python web-crawler data-mining

问题:在Uni找到数学讲座的答案和练习.赫尔辛基

实际问题

  1. 使用Disallowrobots.txt中的.com制作网站列表
  2. 在(1)处创建包含*.pdf文件的站点列表
  3. 在(2)中制作一个包含pdf文件中"analyysi"一词的网站列表

对实际问题的建议

  1. 问题3:制作一个从pdf文件中删除数据的编译器

问题

  1. 你如何搜索注册的.com-网站?
  2. 您如何通过Python的defaultdict和BeautifulSoap解决实际问题1和2?

Arj*_*jan 6

我试图找到互联网上的每个网站都有一个pdf文件,其中包含"Analyysi"一词

不是您的问题的答案,但是:请尊重网站所有者不希望编入索引的愿望.