Author Profile
Ștefan Răcilă
全栈开发工程师
Stefan Racila 是 WebScrapingAPI 的 DevOps 及全栈工程师,负责开发产品功能并维护确保平台稳定运行的基础设施。

Published Articles
9
Scrapy Splash 教程:渲染 JavaScript 页面
简要说明:Scrapy Splash 将 Scrapy 的快速抓取引擎与 Splash 无头浏览器配对使用,以渲染 JavaScript 较多的页面。本 Scrapy Splash 教程将指导你完成 Docker 设置、Scrapy 项目配置、SplashRequest 基础知识、用于滚动和点击的 Lua 脚本、代理集成,以及修复你将遇到的最常见错误。
Read article
网络爬虫时避免被封号或IP封禁的11条实用建议
掌握网络爬虫技巧,避免被封禁!遵循遵守服务条款、使用代理服务器以及规避IP封禁的建议。以符合道德和法律的方式提取数据。
Read article
如何在 Python 请求中使用代理:从基础到生产
简要说明:本指南从头到尾介绍了如何在 Python Requests 中使用代理:一个有效的代理字典、经过验证的 URL、环境变量、会话重用、不泄漏 DNS 的 SOCKS5 以及带有重试和断路器的轮换池。到最后,你就会知道什么时候托管 API 比 DIY 池更有价值。
Read article
如何使用 Python 制作网络爬虫——入门指南
本教程将演示如何使用 Python 进行网页爬取。网页爬取是一种强大的方法,通过定位一个或多个域名的所有 URL 来从网络上收集数据。
Read article
什么是浏览器自动化?实用指南
简要说明:浏览器自动化是指通过代码驱动真实或无头 Web 浏览器,使其代表您点击、键入、导航和读取页面。本指南将解释什么是浏览器自动化,比较 Selenium、Playwright、Puppeteer 和 Cypress,并说明何时不需要使用完整浏览器。
Read article
网络抓取与数据挖掘:区别、管道以及何时使用两者
简要说明:网络搜刮从公共网页中收集原始数据。数据挖掘分析结构化数据,以显示模式、预测和细分。它们是同一生命周期中的不同阶段,大多数生产系统都将它们结合在一个 "先搜刮,后规范化,再挖掘 "的流程中。
Read article
面向开发人员的最佳网络抓取课程
简要说明:最好的网络刮擦课程取决于你的语言、水平和目标用例。本指南比较了 Udemy、Coursera、DataCamp 和 Packt 的五种付费课程,指出了官方文档等免费补充内容,并介绍了如何从完成课程过渡到运行生产型刮擦程序。
Read article
网络爬虫时避免被封号或IP封禁的11条实用建议
通过这11条实用建议,您将学会如何进行网页抓取而不被列入黑名单。从此再也不会出现错误提示了!
Read article
CSS 选择器速查表——网页抓取技巧与窍门
想要像专业人士一样进行网页抓取时,请使用这份 CSS 选择器速查表
Read article