小编AJI*_*NOY的帖子

Scrapy 获取跨越多行和嵌套元素的文本

我确实在尝试抓取以获取班加罗尔所有职位列表的信息。

网址：https : //www.indeed.co.in/jobs?q=software+developer&l=Bengaluru,+Karnataka&start=0

我感兴趣的父 div 的 Xpath：

//div[contains(@class, "jobsearch-SerpJobCard")]

我想提取结构如下的公司名称：

<span class="company">
        <a>
              Micro Focus
        </a>
</span>

Run Code Online (Sandbox Code Playgroud)

有些人喜欢：

<div>
    <span class="company">
        SSG <b>Software</b> Systems</span>

    </div>

Run Code Online (Sandbox Code Playgroud)

我正在使用一个通用的 Xpath 表达式来抓取这两种标题。我在使用第二种类型时遇到了麻烦，因为它包含多个转义字符，例如 \n，它们反映在我的结果中，而剥离结果则是空字符串。

用于提取标题的 Xpath：

//div[contains(@class, "jobsearch-SerpJobCard")]//span[@class="company"]/text()

结果：

['\n ', '\n ', '\n ', '\n 分析人力资本客户', '\n Advantage Tech', '\n ', '\n SQUARE', '\n DART', '\n posmab 技术', '\n ', '\n PENTAMOUNT TECHNOLOGIES', '\n ', '\n
MobileComm, Inc.', '\n IGLOBAL IMPACT ITES PVT.LTD.', '\n
', '\n']

我该怎么做才能摆脱那些额外的 '\n' 字符？

python scrapy web-scraping

AJI*_*NOY

lucky-day

2
推荐指数

1
解决办法

500
查看次数

标签统计

python ×1

scrapy ×1

web-scraping ×1

Scrapy 获取跨越多行和嵌套元素的文本

标签 统计

小编AJI_NOY的帖子

标签统计