CasperJS querySelectorAll + map.call

Kan*_*Kan 1 javascript selectors-api casperjs

html文件

<table id="tbl_proxy_list">
...........
 <tr>
   ......
    <td align="left">
        <time class="icon icon-check">1 min</time>
    </td>
    <td align="left">
        <div class="progress-bar" data-value="75" title="4625"></div>
    </td>
</tr>
</table>
Run Code Online (Sandbox Code Playgroud)

ip.js文件

casper.start('http://www.proxynova.com/proxy-server-list/', function() {
    var info_text = this.evaluate(function() {
        var nodes = document.querySelectorAll('table[id="tbl_proxy_list"] tr');
        return [].map.call(nodes, function(node) { 
            //return node.innerText;
            return node;
        });
    });

    var tr_data = info_text.map(function(str) {
        var elements = str;
        var data = {
            ip        : elements,
            port      : elements[1],
            lastcheck : elements[2],
            speed     : elements[3], // <== value is 75..
        };
        return data;
    });

    utils.dump(tr_data);
});

casper.run();
Run Code Online (Sandbox Code Playgroud)

return node.innerText 只是文字.

  • ip 是一个文本值
  • port 是一个文本值
  • lastcheck 是一个文本值
  • speed不是文本值(data-value="75")

我要导入data-value="75"(速度值为75).

我不知道该怎么办.

========================================

它的工作......很好.谢谢Artjom.

但是tr_data echo错误.

首先,你代码修改..

return {
    "ip":        tr.children[0].innerText.trim(),
    "port":      tr.children[1].innerText.trim(),
    "lastcheck": tr.children[2].innerText.trim(),
    "speed":     tr.children[3].children[0].getAttribute("data-value")
};
Run Code Online (Sandbox Code Playgroud)

和回声..

//this.echo(tr_data.length);
for(var ii=0; ii<tr_data.length; ii++)
{
    this.echo(tr_data[ii]['ip']);
}
Run Code Online (Sandbox Code Playgroud)

在运行中,吹错误..

TypeError:'null'不是对象(评估'tr_data.length'); 有什么问题?

我需要你的帮助..谢谢.

Art*_* B. 7

您无法从页面上下文(内部evaluate回调)中传递DOM元素.

来自文档:

注意: evaluate函数的参数和返回值必须是一个简单的原始对象.经验法则:如果它可以通过JSON序列化,那么它很好.

返回一个DOM元素数组将产生一个包含多个undefined值的数组.这意味着您需要映射页面上下文中的所有内容,然后返回结果数组.你也只需要一个map.

var tr_data = this.evaluate(function() {
    var nodes = document.querySelectorAll('table[id="tbl_proxy_list"] tbody tr');
    return Array.prototype.map.call(nodes, function(tr, i) { 
        if (tr.children.length != 6) {
            return null; // skip ads
        }
        return {
            ip:        tr.children[0].innerText.trim(),
            port:      tr.children[1].innerText.trim(),
            lastcheck: tr.children[2].innerText.trim(),
            speed:     tr.children[3].children[0].getAttribute("data-value")
        };
    }).filter(function(data){
        return data !== null; // filter the null out
    });;
});
Run Code Online (Sandbox Code Playgroud)

您也可能想要trim多余的空白区域.