Mar*_*cin 3 xpath web-crawler import.io
我在这个网站上获得了提供的工作列表:http://telekom.jobs/global-careers
我正在尝试获取XPath链接以获取有关工作的更多信息.
这是第一个链接的整个XPath:
/html/body/div[3]/div/div[2]/div[3]/table/tbody/tr[2]/td/div/a/@href
Run Code Online (Sandbox Code Playgroud)
这就是我应该粘贴到import.io:
tr[2]/td/div/a/@href
Run Code Online (Sandbox Code Playgroud)
但它不起作用,我不知道为什么.
有关工作机会页面的更多信息的链接正在使用XPath:
tr[2]/td/div/a/@href
tr[4]/td/div/a/@href
tr[6]/td/div/a/@href
tr[8]/td/div/a/@href
Run Code Online (Sandbox Code Playgroud)
等等.也许这就是为什么它不起作用?因为数字不是1,2,3等而是2,4,6?或者我做错了什么?
小智 5
如果您从URL 2.0创建API并使用JS重新加载网站但CSS关闭,您应该能够看到可折叠菜单:
在这个网站上以这种方式构建DOM,所有奇数行都有作业标题,而有关作业的更多信息隐藏在偶数行中.为此,我们可以使用XPath的position()属性,因此您可以在手动行训练中使用以下XPath:
/html/body/div[3]/div/div[2]/div[3]/table/tbody/tr[position() mod 2 = 0]
Run Code Online (Sandbox Code Playgroud)
其中突出显示了更多信息框,只允许您访问内部数据.从这里,您可以简单地定位具有标题和链接的元素的特定属性.
链接xpath:.//a[@class=’forward jobadview’]/@href
标题xpath:.//div[@class=’info’]//h3
话虽如此,由于网站上大量使用JS,它可能无法发布,所以我们创建了一个API供您查询,您可以使用此处检索相同的数据.
https://import.io/data/mine/?id=0626d49d-5233-469d-9429-707f73f1757a