Author Profile

Ștefan Răcilă

全栈开发工程师

Stefan Racila 是 WebScrapingAPI 的 DevOps 及全栈工程师，负责开发产品功能并维护确保平台稳定运行的基础设施。

Python web scrapingproxy infrastructurebrowser automationGuidesScience of Web Scraping

Ștefan Răcilă, 全栈开发工程师 @ WebScrapingAPI

Published Articles

9

Published Articles

GuidesApr 29, 20264 min read

Scrapy Splash 教程：渲染 JavaScript 页面

简要说明：Scrapy Splash 将 Scrapy 的快速抓取引擎与 Splash 无头浏览器配对使用，以渲染 JavaScript 较多的页面。本 Scrapy Splash 教程将指导你完成 Docker 设置、Scrapy 项目配置、SplashRequest 基础知识、用于滚动和点击的 Lua 脚本、代理集成，以及修复你将遇到的最常见错误。

Read article

GuidesApr 10, 20261 min read

网络爬虫时避免被封号或IP封禁的11条实用建议

掌握网络爬虫技巧，避免被封禁！遵循遵守服务条款、使用代理服务器以及规避IP封禁的建议。以符合道德和法律的方式提取数据。

Read article

GuidesMay 7, 20263 min read

如何在 Python 请求中使用代理：从基础到生产

简要说明：本指南从头到尾介绍了如何在 Python Requests 中使用代理：一个有效的代理字典、经过验证的 URL、环境变量、会话重用、不泄漏 DNS 的 SOCKS5 以及带有重试和断路器的轮换池。到最后，你就会知道什么时候托管 API 比 DIY 池更有价值。

Read article

GuidesApr 22, 20262 min read

如何使用 Python 制作网络爬虫——入门指南

本教程将演示如何使用 Python 进行网页爬取。网页爬取是一种强大的方法，通过定位一个或多个域名的所有 URL 来从网络上收集数据。

Read article

Science of Web ScrapingMay 8, 20262 min read

什么是浏览器自动化？实用指南

简要说明：浏览器自动化是指通过代码驱动真实或无头 Web 浏览器，使其代表您点击、键入、导航和读取页面。本指南将解释什么是浏览器自动化，比较 Selenium、Playwright、Puppeteer 和 Cypress，并说明何时不需要使用完整浏览器。

Read article

Science of Web ScrapingMay 12, 20262 min read

网络抓取与数据挖掘：区别、管道以及何时使用两者

简要说明：网络搜刮从公共网页中收集原始数据。数据挖掘分析结构化数据，以显示模式、预测和细分。它们是同一生命周期中的不同阶段，大多数生产系统都将它们结合在一个 "先搜刮，后规范化，再挖掘 "的流程中。

Read article

Science of Web ScrapingMay 8, 20262 min read

面向开发人员的最佳网络抓取课程

简要说明：最好的网络刮擦课程取决于你的语言、水平和目标用例。本指南比较了 Udemy、Coursera、DataCamp 和 Packt 的五种付费课程，指出了官方文档等免费补充内容，并介绍了如何从完成课程过渡到运行生产型刮擦程序。

Read article

GuidesApr 22, 20261 min read

网络爬虫时避免被封号或IP封禁的11条实用建议

通过这11条实用建议，您将学会如何进行网页抓取而不被列入黑名单。从此再也不会出现错误提示了！

Read article

Science of Web ScrapingApr 22, 20261 min read

CSS 选择器速查表——网页抓取技巧与窍门

想要像专业人士一样进行网页抓取时，请使用这份 CSS 选择器速查表

Read article