小编Dav*_*att的帖子

网站特别难以爬行和刮擦?

我对面向公众的网站(登录/身份验证后面没有任何内容)感兴趣,其中包括:

  • 高度使用内部301和302重定向
  • 防刮措施(但不能通过robots.txt禁止抓取)
  • 非语义或无效标记
  • 内容通过AJAX以onclicks或无限滚动的形式加载
  • 网址中使用了大量参数
  • 典型问题
  • 复杂的内部链接结构
  • 以及其他任何通常使抓取网站的事情都让人头疼!

我已经构建了一个爬虫/蜘蛛,它可以在一个网站上进行一系列的分析,而我正在寻找会让它变得困难的网站.

screen-scraping web-crawler web-scraping

11
推荐指数
1
解决办法
2042
查看次数

将使用:memory加载的SQLite数据库写入磁盘

我正在内存中生成相当大的SQLite3数据库(〜50Mb),一旦完成所述数据库的生成,我就需要能够将其写入磁盘。使用PHP解决此问题的最佳方法是什么?

我尝试在磁盘上创建结构上相同的SQLite3数据库,然后使用INSERTS进行填充,但这太慢了。我对在线PHP SQLite3文档也有空白。

我发现的是SQLite3 Backup API,但是不确定如何最好地通过PHP与之交互。有任何想法吗?

php database sqlite

4
推荐指数
1
解决办法
1043
查看次数