获取 html 和文本格式的整个 Playwright 页面

Hyg*_*dao 8 javascript node.js playwright

我在 nodejs 中使用 playwright,在获取页面文本或 Html 时遇到一些问题。我只想将 url 作为字符串获取,例如:<html><div class="123"><a>link</a>something</div><div>somethingelse</div></hmtl>

const browser = await playwright.chromium.launch({
    headless: true,
});

const page = await browser.newPage();
await page.goto(url);
Run Code Online (Sandbox Code Playgroud)

我试图使用const pageText = page.$('div').innerText;const pageText2 = await page.$$eval('div', el => el.innerText); 但两者都不起作用,只是给我未定义。

小智 19

对于页面的完整 html,这就是您所需要的:const html = await page.content()

要获取 div 的内部文本,应该可以:const pageText = await page.innerText('div')

看: