我应该使用Yahoo-Pipes来抓取div的内容吗?

Jim*_* G. 2 screen-scraping yahoo-pipes

鉴于:

  • 网址 - http://www.contoso.com/search.php?q= {param}返回:

    -html-
    --body-
    {...}
    --- div id ='foo'-
    ---- div id ='page1'/ -
    ---- div id ='page2'/ -
    ---- div id ='page3'/ -
    ---- div id ='pageN'/ -
    ---/div-
    {...}
    - /body-
    - /html-

通缉:

  • div id ='foo'的innerHtml必须由客户端获取(即Javascript).
    • 它将被拆分为离散项(即div id ='page1'到div id ='pageN').
  • API限制可防止服务器端代码预取数据,因此必须在客户端上放置解析和操作负担.

题:

  • Yahoo-Pipes可以帮助格式化数据以便于消费吗?
    • 缺少DOM解析器让我停下来.
  • 是否有任何现有的管道可以作为一个例子?

Mau*_*fer 8

您可以使用YQL模块,它允许您获取任意URL,然后使用XPath解析它们.一个示例YQL查询:

select * from html where url="http://finance.yahoo.com/q?s=yhoo" and
  xpath='//div[@id="yfi_headlines"]/div[2]/ul/li/a'
Run Code Online (Sandbox Code Playgroud)