无法找到robots.txt阻止的互联网页面

-1 python web-crawler data-mining

问题:在Uni找到数学讲座的答案和练习.赫尔辛基

实际问题

使用Disallowrobots.txt中的.com制作网站列表
在(1)处创建包含*.pdf文件的站点列表
在(2)中制作一个包含pdf文件中"analyysi"一词的网站列表

对实际问题的建议

问题3:制作一个从pdf文件中删除数据的编译器

问题

你如何搜索注册的.com-网站？
您如何通过Python的defaultdict和BeautifulSoap解决实际问题1和2？

我试图找到互联网上的每个网站都有一个pdf文件,其中包含"Analyysi"一词

不是您的问题的答案,但是:请尊重网站所有者不希望编入索引的愿望.

归档时间：	16 年，6 月前
查看次数：	408 次
最近记录：	13 年，1 月前

Python字符串格式:%vs. .format 1323

单引号与Python中的双引号 718

从Python中删除字符串标点符号的最佳方法 578

按属性过滤 81

Django Rest Framework和JSONField 51

python中奇怪的作用域行为 47

无法使用有效的用户名和密码登录django管理页面 41

无法使用Python在Heroku教程中启动工头 41

网络抓取工具的法律或道德缺陷？ 6

你如何下载一个网站？ 3

如何在本地和远程删除Git分支？ 16311

使用Git将我的最后一次X提交压缩在一起 3294

"最小的惊讶"和可变的默认论证 2458

如何修改指定的提交？ 2077

每位程序员应阅读的最具影响力的单一书籍是什么？ 1439

何时使用虚拟析构函数？ 1420

在Python中创建一个包含列表推导的字典 1216

如何正确强制推送Git？ 1206

在jQuery中序列化为JSON 1189

如何查看仅一个用户提交的git日志？ 1178