craigslist mashup如何获取数据?

pea*_*ewg 29 mashup aggregators

我正在对内容聚合器进行一些研究工作,我很好奇当前的一些craigslist聚合器如何将数据添加到他们的mashup中.

例如,www.housingmaps.com和现已关闭的www.chicagocrime.org

如果有一个可用于参考的URL,那将是完美的!

小智 15

对于AdRavage.com,我使用Magpie RSS(提取搜索返回的数据)和自定义屏幕抓取类的组合来正确填充构建搜索时使用的城市/类别信息.

例如,要提取类别,您可以:

//scrape category data
$h = new http();
$h->dir = "../cache/"; 
$url = "http://craigslist.org/";

if (!$h->fetch($url, 300)) {
  echo "<h2>There is a problem with the http request!</h2>";      
  exit();
}

//we need to get all category abbreviations (data looks like: <option value="ccc">community)
preg_match_all ("/<option value=\"(.*)\">([^`]*?)\n/", $h->body, $categoryTemp);

$catNames = $categoryTemp['2']; 

//return the array of abreviations
if(sizeof($catNames) > 0)   
    return $catNames;   
else
    return $emptyArray = array();
Run Code Online (Sandbox Code Playgroud)


Joh*_*ann 13

抓取(并阻止),使用框架或Google搜索的替代方法是使用数据代理数据交换服务.

3taps是一项测试版服务,为许多服务提供开发人员API,包括Craigslist.他们的团队还构建了Craiggers来演示此API的用例.创始人Greg Kidd告诉我,3taps从非Craigslist来源收集Craigslist数据,它已经被索引和缓存,因此它不会对Craigslist造成任何压力.还列出了其他3taps数据源,但这些统计数据不清楚它们目前是否受支持.他们的目标是使数据交换民主化.

80legs是一种爬行服务,提供较少实时但可能更全面的选项.他们的数据转储式服务包括数百个站点站点的爬行包,包括亚马逊,Facebook和Zillow(我目前不相信Craigslist).他们的新工作Datafiniti正在为这类数据提供搜索引擎.


pea*_*ewg 0

在继续研究这个领域的过程中,我发现了一个很棒的网站,它可以部分满足我的兴趣:

疯狂名单

它使用客户端浏览器的HTTPReferer,这很有趣但并不理想。该网站的作者还声称对 CL 非常满意,我明白这一点。它还给出了与我的需求相似的业务需求的清晰示例,以及为什么我对这个主题感兴趣。