百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

Playwright入门(playwright工具)

csdh11 2025-03-23 18:36 9 浏览

playwright介绍

playwright是一款由微软开源的强大的自动化库,它为现代web应用的自动化测试提供了一整套解决方案。相对于selenium,playwright拥有更高的性能,并且用户不需要频繁下载webdriver以适配浏览器版本。playwright支持chrome、firefox、webkit等浏览器且拥有跨平台支持,提供了TypeScript、JavaScript、Python、.NET、Java多语言API接口,已经有越来越多的用户使用playwright开展自动化测试工作。同时playwright在爬虫方面也表现出色,本文就以爬取百度搜索结果为例讲解playwright的基本使用。详细学习参见Playwright官方文档


安装playwright

首先pip执行下面的命令安装最新的playwright库

pip install playwright

安装完成后执行如下命令,此命令会安装Chromium, Firefox and WebKit浏览器,playwright就是控制这些浏览器操作web应用

playwright install


playwright初始化

这里以python为例,playwright提供了同步和异步两套api,因为浏览器页面操作明显是IO密集型操作,因此非常适合异步模式,因为异步编程模式可以做到在IO等待期间继续运行其他的任务而不会阻塞当前任务,因此下面的示例使用异步api进行介绍。

playwright初始化部分包括创建playwright的上下文环境、创建浏览器、创建page,下面是官方文档给出的一个入门示例,初始化部分我添加了注释进行说明

import asyncio
from playwright.async_api import async_playwright


async def main():
    # 创建playwright上下文环境
    async with async_playwright() as p:
        # 创建浏览器
        browser = await p.chromium.launch()
        # 创建page
        page = await browser.new_page()
        await page.goto("http://playwright.dev")
        print(await page.title())
        await browser.close()
asyncio.run(main())

上面代码async with async_playwright()的作用是自动管理playwright的上下文环境,比如浏览器关闭后自动清理上下文环境,用户无需关心。不过这个方式可能并不适用有些场景,比如需要主动控制环境的清理时,下面是不使用async with管理上下文的代码示例,这样就不必在同一个方法中创建并清理上下文了,可以自由地控制何时关闭上下文。

import asyncio
from playwright.async_api import async_playwright

async def main():
    # 创建playwright上下文环境
    p = await async_playwright().start()
    # 创建浏览器
    browser = await p.chromium.launch()
    # 创建page
    page = await browser.new_page()
    await page.goto("http://playwright.dev")
    print(await page.title())
    await browser.close()
    # 清理playwright上下文环境
    await p.stop()

asyncio.run(main())


访问页面

在playwright中,Page类用于打开并访问web页面,可以通过Browser直接创建page实例,也可以通过BrowserContext创建page实例,使用同一个BrowserContext的page会共享cookies、本地存储等,可以减少资源的消耗。上面的示例已经给出了使用Browser创建page并访问页面的示例,下面给出使用BrowserContext创建page并访问百度的代码。

import asyncio
from playwright.async_api import async_playwright

async def main():
    # 创建playwright上下文环境
    p = await async_playwright().start()
    # 创建浏览器
    browser = await p.chromium.launch()
    # 创建BrowserContext
    context = await browser.new_context()
    # 通过BrowserContext创建page
    page = await context.new_page()
    # 打开百度首页
    await page.goto("https://baidu.com")
    # 提取页面标题
    print(await page.title())
    await browser.close()
    # 清理playwright上下文环境
    await p.stop()

asyncio.run(main())


操作页面元素

到了这里才是真正的重点,必须能够操控页面中的元素才能达到我们想要的目的,比如模拟点击按钮、向表单填写信息、提取页面内容等,这其中首先需要做的是定位页面上的元素。playwright提供了丰富的方法用于定位页面中的元素,建议在使用过程中参考api文档进行使用,这里仅介绍通用的locator方法,page.locator方法根据传入的selector选择器定位相应的元素并返回,selector支持css选择器和xpath形式,关于css选择和xpath不是本文的重点,建议查阅相关的资料。

接下来展示使用css选择器和xpath两种方式达到在百度首页中输入搜索关键词并点击搜索的功能
使用css选择器

await self.page.goto("https://www.baidu.com")
# 定位id=kw的input元素并输入搜索内容
await self.page.locator('#kw').fill("python")
# 定位id=su的搜索按钮并点击
await self.page.locator('#su').click()

使用xpath

await self.page.goto("https://www.baidu.com")
# 定位id=kw的input元素并输入搜索内容
await self.page.locator('xpath=//input[@id="kw"]').fill("python")
# 定位id=su的搜索按钮并点击
await self.page.locator('xpath=//input[@id="su"]').click()

关于提取页面信息,locator.get_attribute(name)提取name对应属性的值,locator.input_value()获取input元素的value值,locator.inner_text()获取元素中的文本,locator.inner_html()获取元素内的html内容,locator.text_content()获取元素内的所有文本节点的文本信息,它与inner_text()不同之处在于inner_text只会取元素本身的文本,而不会取子元素的文本。

前面示例代码中提到的await page.title()用于获取整个页面的标题,而如果要获取整个页面的响应源码则直接获取await page.goto()方法的返回值即可。


完整的例子

最后,给出一个完整的示例来结束本章的内容,它实现的功能是通过关键词进行百度搜索,提取搜索结果中的标题和真实URL链接,并可以通过参数来控制爬取多少页,这是一个很有实用价值的案例,我重点说明下如何获取搜索结果中的真实链接,至于其他部分并无特别之处,直接参见代码即可。

直接查看搜索链接中的href发现它并不是真实的跳转链接,还是百度内部链接,只有点击这个链接再次请求百度才会返回真实的地址并打开真实的网站页面

当然实际去请求一次这个链接确实可以获取到真实的URL,这无疑会消耗更多的时间,我想说的是还有更好的办法取到真实的URL,沿着那个a元素往上找一找会发现真实的url竟然就隐藏在其中的mu属性中,是不是很意外!



别急,仔细梳理每一个搜索结果还会发现有的搜索结果在data-lp属性中,这个url稍有不同,是已经编码过的,只需要简单的解码就可以啦。


分析清楚了,写一个xpath就能轻松定位到它们了。

完整的示例代码

import random
import asyncio
from urllib.parse import unquote

from playwright.async_api import async_playwright

class BaiduCrawler:
    def __init__(self) -> None:
        self.playwright = None
  
    async def open_browser(self):
        if self.playwright is None:
            self.playwright = await async_playwright().start()
            # --start-maximized:最大化浏览器窗口
            self.browser = await self.playwright.chromium.launch(headless=False, args=['--start-maximized'])
            # no_viewport=True:表示不限定视口的尺寸,这样视口也会最大化显示
            self.page = await self.browser.new_page(no_viewport=True)
  
    async def search(self, query_content):
        await self.page.goto("https://www.baidu.com")
        # 使用xpath
        # 定位id=kw的input元素并输入搜索内容
        await self.page.locator('xpath=//input[@id="kw"]').fill(query_content)
        # 定位id=su的搜索按钮并点击
        await self.page.locator('xpath=//input[@id="su"]').click()

    async def parse(self):
        # 等待搜索结果加载完成,避免爬取不到结果
        await self.page.wait_for_selector('#content_left')
        xpath_result = 'xpath=//div[@id="content_left"]//h3//ancestor::*[@mu or @data-lp]'
        # 查找所有搜索结果
        search_results = await self.page.locator(xpath_result).all()
        for div in search_results:
            # 提取搜索结果标题
            title = await div.locator('xpath=.//h3//a[1]').text_content()
            # 百度搜索的真实链接在mu或data-lp属性中
            link = unquote(await div.get_attribute("mu") or await div.get_attribute("data-lp"))
            item = {
                "title": title,
                "url": link
            }
            print(item)

    async def next_page(self):
        xpath_next_page = 'xpath=//div[@id="page"]//a[contains(text(),"下一页")]'
        try:
            # 如果能够找到下一页这个元素则表示还可以继续爬取,点击下一页并返回True
            await self.page.wait_for_selector(xpath_next_page)
            await self.page.locator(xpath_next_page).click()
            return True
        except:
            # 找不到下一页会抛出异常,直接返回False
            return False

    async def quit(self):
        if self.playwright is not None:
            await self.page.close()
            await self.browser.close()
            await self.playwright.stop()

async def main():
    baidu = BaiduCrawler()
    await baidu.open_browser()
    max_page = 6
    page_num = 0
    await baidu.search("python")
    await baidu.parse()
    while await baidu.next_page() and page_num < max_page:
        await baidu.parse()
        # 随机等待一段时间,避免爬取过快触发百度反爬
        await asyncio.sleep(random.randint(3, 8))
        page_num += 1
    await baidu.quit()

if __name__ == "__main__":
    asyncio.run(main())

运行结果

相关推荐

探索Java项目中日志系统最佳实践:从入门到精通

探索Java项目中日志系统最佳实践:从入门到精通在现代软件开发中,日志系统如同一位默默无闻却至关重要的管家,它记录了程序运行中的各种事件,为我们排查问题、监控性能和优化系统提供了宝贵的依据。在Java...

用了这么多年的java日志框架,你真的弄懂了吗?

在项目开发过程中,有一个必不可少的环节就是记录日志,相信只要是个程序员都用过,可是咱们自问下,用了这么多年的日志框架,你确定自己真弄懂了日志框架的来龙去脉嘛?下面笔者就详细聊聊java中常用日志框架的...

物理老师教你学Java语言(中篇)(物理专业学编程)

第四章物质的基本结构——类与对象...

一文搞定!Spring Boot3 定时任务操作全攻略

各位互联网大厂的后端开发小伙伴们,在使用SpringBoot3开发项目时,你是否遇到过定时任务实现的难题呢?比如任务调度时间不准确,代码报错却找不到方向,是不是特别头疼?如今,随着互联网业务规模...

你还不懂java的日志系统吗 ?(java的日志类)

一、背景在java的开发中,使用最多也绕不过去的一个话题就是日志,在程序中除了业务代码外,使用最多的就是打印日志。经常听到的这样一句话就是“打个日志调试下”,没错在日常的开发、调试过程中打印日志是常干...

谈谈枚举的新用法--java(java枚举的作用与好处)

问题的由来前段时间改游戏buff功能,干了一件愚蠢的事情,那就是把枚举和运算集合在一起,然后运行一段时间后buff就出现各种问题,我当时懵逼了!事情是这样的,做过游戏的都知道,buff,需要分类型,且...

你还不懂java的日志系统吗(javaw 日志)

一、背景在java的开发中,使用最多也绕不过去的一个话题就是日志,在程序中除了业务代码外,使用最多的就是打印日志。经常听到的这样一句话就是“打个日志调试下”,没错在日常的开发、调试过程中打印日志是常干...

Java 8之后的那些新特性(三):Java System Logger

去年12月份log4j日志框架的一个漏洞,给Java整个行业造成了非常大的影响。这个事情也顺带把log4j这个日志框架推到了争议的最前线。在Java领域,log4j可能相对比较流行。而在log4j之外...

Java开发中的日志管理:让程序“开口说话”

Java开发中的日志管理:让程序“开口说话”日志是程序员的朋友,也是程序的“嘴巴”。它能让程序在运行过程中“开口说话”,告诉我们它的状态、行为以及遇到的问题。在Java开发中,良好的日志管理不仅能帮助...

吊打面试官(十二)--Java语言中ArrayList类一文全掌握

导读...

OS X 效率启动器 Alfred 详解与使用技巧

问:为什么要在Mac上使用效率启动器类应用?答:在非特殊专业用户的环境下,(每天)用户一般可以在系统中进行上百次操作,可以是点击,也可以是拖拽,但这些只是过程,而我们的真正目的是想获得结果,也就是...

Java中 高级的异常处理(java中异常处理的两种方式)

介绍异常处理是软件开发的一个关键方面,尤其是在Java中,这种语言以其稳健性和平台独立性而闻名。正确的异常处理不仅可以防止应用程序崩溃,还有助于调试并向用户提供有意义的反馈。...

【性能调优】全方位教你定位慢SQL,方法介绍下!

1.使用数据库自带工具...

全面了解mysql锁机制(InnoDB)与问题排查

MySQL/InnoDB的加锁,一直是一个常见的话题。例如,数据库如果有高并发请求,如何保证数据完整性?产生死锁问题如何排查并解决?下面是不同锁等级的区别表级锁:开销小,加锁快;不会出现死锁;锁定粒度...

看懂这篇文章,你就懂了数据库死锁产生的场景和解决方法

一、什么是死锁加锁(Locking)是数据库在并发访问时保证数据一致性和完整性的主要机制。任何事务都需要获得相应对象上的锁才能访问数据,读取数据的事务通常只需要获得读锁(共享锁),修改数据的事务需要获...