CasperJS将数据传回PHP

Nyx*_*nyx 9 php screen-scraping web-scraping phantomjs casperjs

PHP使用exec()命令调用CasperJS .在CasperJS完成其工作(例如检索网页的某些部分)之后,如何将检索到的数据返回给PHP?

Hem*_*ela 26

我认为将数据从CasperJS传输到另一种语言(如PHP)的最佳方法是将CasperJS脚本作为服务运行.由于CasperJS是通过PhantomJS编写的,因此CasperJS可以使用名为Mongoose的PhantomJS嵌入式Web服务器模块.

有关嵌入式Web服务器如何工作的信息,请参阅此处

这里有一个关于CasperJS脚本如何启动Web服务器的示例.

//define ip and port to web service
var ip_server = '127.0.0.1:8585';

//includes web server modules
var server = require('webserver').create();

//start web server
var service = server.listen(ip_server, function(request, response) {

    var links = [];
    var casper = require('casper').create();

    function getLinks() {
        var links = document.querySelectorAll('h3.r a');
        return Array.prototype.map.call(links, function(e) {
            return e.getAttribute('href')
        });
    }

    casper.start('http://google.fr/', function() {
        // search for 'casperjs' from google form
        this.fill('form[action="/search"]', { q: 'casperjs' }, true);
    });

    casper.then(function() {
        // aggregate results for the 'casperjs' search
        links = this.evaluate(getLinks);
        // now search for 'phantomjs' by filling the form again
        this.fill('form[action="/search"]', { q: 'phantomjs' }, true);
    });

    casper.then(function() {
        // aggregate results for the 'phantomjs' search
        links = links.concat(this.evaluate(getLinks));
    });

    //
    casper.run(function() {
            response.statusCode = 200;
            //sends results as JSON object
            response.write(JSON.stringify(links, null, null));
            response.close();              
    });

});
console.log('Server running at http://' + ip_server+'/');
Run Code Online (Sandbox Code Playgroud)

  • 虽然我同意理论上这是一个很好的技术,但实际上casper并没有释放幻像资源,每个请求似乎都会线性增加内存使用量.我已经尝试添加```casper.clear()```甚至hack clear()来```调用this.page.close()```(来自clear())页面.虽然呼叫关闭似乎有助于它无法解决问题. (8认同)

the*_*ron 9

您可以将输出从stdout重定向到数组.

这个页面上它说你可以做:

string exec ( string $command [, array &$output [, int &$return_var ]] )
Run Code Online (Sandbox Code Playgroud)

它继续说:

如果输出参数存在,那么指定的数组将填充命令的每一行输出.

所以基本上你可以做exec('casperjs命令在这里,$ array_here);