简而言之:本篇 BeautifulSoup 教程将带您逐步构建一个完整的 Python 爬虫程序,从 pip install 到一个经过强化处理的脚本,该脚本能够对 Hacker News 进行分页抓取,导出为 CSV 和 JSON 格式,并且保持足够的礼貌以避免被封禁。每个代码片段均可运行,同时我们也会明确指出哪些情况下 BeautifulSoup 并非最佳选择。如果你会编写 for Python 循环,并且曾盯着网页心想“我想把这些数据导入电子表格”,那么本 BeautifulSoup 教程正是为你量身打造。 Beautiful Soup 是一个 Python 库,用于将 HTML 和 XML 解析为树结构,您可以通过熟悉且类似 jQuery 的方法对其进行查询。它不抓取页面,不运行 JavaScript,也不伪装成浏览器。它只处理原始标记,并提供一个简洁的 API 供您提取所需的内容。
计划很明确。我们将搭建一个全新的环境,使用 requests 库抓取一个真实的列表页面,使用 BeautifulSoup 进行解析,同时利用 find_all 和 CSS 选择器定位元素,跟随分页机制遍历多页,并将结果写入 CSV 和 JSON 文件。在此过程中,我们将融入用户代理轮换、重试和速率限制机制,因为任何忽略反机器人防御措施的教程,一旦应用于真实网站就会立即失效。到最后,您将获得一个可直接复制粘贴运行的爬虫程序,并清楚地了解何时继续使用 BeautifulSoup,何时该升级到更强大的工具。




