Has*_*ram 6 search multithreading ruby-on-rails web-crawler web-scraping
为了更好地理解这里是使用MySQL在Ruby on Rails中我的抓取应用程序的表/模型:
系统是多线程的,因此我必须为状态添加一列,以便多个线程不会同时搜索同一个术语.
最初我有一个刮刀,一切都很好.现在新的要求是同时运行多个刮刀.
这意味着单个状态字段不适用于所有已刮除的状态.我们想到的第一个选项是建立多对多的抓取器和关键字,以跟踪每个刮刀的搜索关键字.
现在我有大约100万个关键字,大约有60-70个网站需要搜索.这意味着一个巨大的表,它将减慢关键字检索过程.
我正在寻找一种不会影响速度的更好的解决方案.由于客户端的某些限制,我无法转移到NoSQL.
| 归档时间: |
|
| 查看次数: |
89 次 |
| 最近记录: |