作为一名经济研究团队的实习生,我的任务是找到一种方法,使用R来自动收集房地产广告网站上的特定数据.
我认为相关的包装是XML和RCurl,但我对他们的工作的理解非常有限.
这是该网站的主页:http://www.leboncoin.fr/ventes_immobilieres/offres/nord_pas_de_calais/? f = a& th = 1& zzz = 59000理想情况下,我想构建我的数据库,以便每行对应一个广告.
以下是广告的详细信息:http://www.leboncoin.fr/ventes_immobilieres/197284216.htm? ca = 17_s 我的变量是:价格("Prix"),城市("Ville"),表面( "表面"),"GES,"Classeénergie"和房间数量("Pièces"),以及广告中显示的图片数量.我还希望将文本导出为字符向量我稍后会进行文本挖掘分析.
我正在寻找任何帮助,链接到教程或操作方法,这将使我领先一条路.