小编AJI*_*NOY的帖子

Scrapy 获取跨越多行和嵌套元素的文本

我确实在尝试抓取以获取班加罗尔所有职位列表的信息。

网址:https : //www.indeed.co.in/jobs?q=software+developer&l=Bengaluru,+Karnataka&start=0

我感兴趣的父 div 的 Xpath:

//div[contains(@class, "jobsearch-SerpJobCard")]

我想提取结构如下的公司名称:

<span class="company">
        <a>
              Micro Focus
        </a>
</span>
Run Code Online (Sandbox Code Playgroud)

有些人喜欢:

<div>
    <span class="company">
        SSG <b>Software</b> Systems</span>

    </div>
Run Code Online (Sandbox Code Playgroud)

我正在使用一个通用的 Xpath 表达式来抓取这两种标题。我在使用第二种类型时遇到了麻烦,因为它包含多个转义字符,例如 \n,它们反映在我的结果中,而剥离结果则是空字符串。

用于提取标题的 Xpath:

//div[contains(@class, "jobsearch-SerpJobCard")]//span[@class="company"]/text()

结果 :

['\n ', '\n ', '\n ', '\n 分析人力资本客户', '\n Advantage Tech', '\n ', '\n SQUARE', '\n DART', '\n posmab 技术', '\n ', '\n PENTAMOUNT TECHNOLOGIES', '\n ', '\n
MobileComm, Inc.', '\n IGLOBAL IMPACT ITES PVT.LTD.', '\n
', '\n']

我该怎么做才能摆脱那些额外的 '\n' 字符?

python scrapy web-scraping

2
推荐指数
1
解决办法
500
查看次数

标签 统计

python ×1

scrapy ×1

web-scraping ×1