Har*_*tty 4 robots.txt ruby-on-rails heroku
我想限制爬虫访问我在Heroku上运行的rails应用程序.如果我使用Apache OR nginX,那将是一项直接的任务.由于应用程序部署在Heroku上,我不确定如何限制HTTP服务器级别的访问.
我曾尝试使用robots.txt文件,但有问题的抓取工具不尊重robot.txt.
这些是我正在考虑的解决方案:
1)before_filter在rails层中用于限制访问.
2)基于机架的解决方案来限制访问
我想知道是否有更好的方法来处理这个问题.
我读过有关蜜罐解决方案的内容:您有一个不能被抓取的URI(将其放在robots.txt中).如果任何IP调用此URI,则阻止它.我将它实现为Rack中间件,因此点击不会转到完整的Rails堆栈.
对不起,我用Google搜索,但找不到原始文章.
| 归档时间: |
|
| 查看次数: |
1766 次 |
| 最近记录: |