简而言之:XPath 是一种用于通过路径、属性或文本内容遍历 HTML/XML 树的查询语言。本指南将介绍 XPath 的语法、轴和函数,并展示使用 lxml 和 Selenium 实现的 Python 爬虫示例。您还将获得一份综合速查表,以及针对最常见 XPath 错误的故障排除部分。
XPath(XML路径语言)是一种查询语言,它使用路径表达式从XML和HTML文档中选择节点。如果觉得CSS选择器对您的抓取任务来说过于局限,那么XPath网页抓取便是顺理成章的下一步。
CSS 选择器只能沿 DOM 结构向前或向下移动,而 XPath 则可向任意方向遍历:向上访问父节点、横向访问兄弟节点,或深入嵌套的子孙节点。它还能根据元素的可见文本进行匹配,这是 CSS 完全不具备的能力。这些特性使得 XPath 在处理结构复杂或混乱的网页时尤为有用。
在本教程中,您将学习核心的 XPath 语法(路径、谓词、轴、函数),了解如何在浏览器中测试表达式,并使用 lxml 和 Selenium 构建真正的 Python 爬虫。我们还将探讨生产环境中导致 XPath 选择器失效的常见陷阱,以及如何避免这些问题。




