WebScrapingAPI 提供了一套完整的网页抓取解决方案。我们的主打产品是一款通用型网页抓取工具,旨在从任何网站收集实时数据。正如您将在本指南中看到的,该工具集成了多种功能,使其能够避开反机器人系统的检测。鉴于其功能丰富,本指南旨在帮助您快速入门 WebScrapingAPI。以下是我们将要介绍的部分内容:
- 使用前端控制面板
- 了解 API 的参数与功能
- 向 API 发送基本请求
- 使用 SDK 搭建复杂的网页抓取工具

WebScrapingAPI 提供了一套完整的网页抓取解决方案。我们的主打产品是一款通用型网页抓取工具,旨在从任何网站收集实时数据。正如您将在本指南中看到的,该工具集成了多种功能,使其能够避开反机器人系统的检测。鉴于其功能丰富,本指南旨在帮助您快速入门 WebScrapingAPI。以下是我们将要介绍的部分内容:
选择 Web Scraping API 而不是普通爬虫的理由不胜枚举。不过,在决定我们为何是最佳选择时,我们更看重用户的反馈。以下是客户选择我们的部分原因:
注册 Web Scraping API 仅需一个有效的电子邮箱地址。此外,每位用户均可享受 7 天免费试用期,在此期间可完全使用 API 的各项功能,但 API 积分上限为 1000 点。 7天试用期结束后,您仍可使用免费套餐,每月提供1000个API积分,但API功能有所限制。若您希望继续使用我们云端网页抓取工具的完整版,我们提供灵活的定价方案。您可访问“定价”页面查看最新价格信息。值得一提的是,我们提供:
开始使用前,请访问此处的注册页面,轻松创建一个免费账户。
在仪表盘上注册并不意味着您自动获得了使用我们产品的权限。如您所见,左侧边栏显示了与我们产品相关的几个选项。由于本指南涉及通用网页抓取工具,若要为此服务创建订阅,请导航至“Web Scraping API”并点击“获取免费试用”按钮。订阅创建完成后,系统将为您提供一个 API 密钥。 请务必妥善保管该密钥,因为它将是您在我们系统中的唯一标识符。随后,您还将能够访问统计页面和测试环境。
与我们的网页抓取工具交互主要有三种方式,其中两种可称为“编程化”方式,另一种则更“适合初学者”。前两种方式需通过 HTTP 客户端或我们的 SDK 访问 API。第三种则是使用仪表盘内提供的“Playground”。我们稍后会详细介绍这些内容,但在那之前,了解 API 的工作原理至关重要。 只有这样,您才能充分发挥 Web Scraping API 的全部功能。那么,让我们从基础开始:
我们通过启用 `api_key` URL 参数来验证来自注册用户的请求。该唯一的 API 密钥与您的账户相关联,并包含权限、使用情况等信息。
请注意,您注册的每个产品都关联着一个唯一的 API 密钥。例如,您无法将通用网页抓取工具的 API 密钥用于 SERP API,反之亦然。
综上所述,若要以认证用户身份抓取 URL,您需要访问以下资源:
https://api.webscrapingapi.com/v1?api_key=<YOUR_UNIQUE_API_KEY>
在我们的 API 中,查询参数用于根据您的需求定制爬虫。了解每个参数的工作原理,将使我们能够充分发挥 Web Scraping API 的全部功能。 我们在此处维护着最新的 API 参数文档。不过,我们还将在本文中深入探讨这些参数,以便更好地理解查询参数在 Web Scraping API 中的工作原理。话虽如此,参数分为三种类型:必填、默认和可选。必填参数非常简单:
请注意,`url` 参数的值应为有效的 URL(而非域名),且最好采用 URL 编码格式。(例如:https%3A%2F%2Fwebscrapingapi.com)
关于默认参数,我们利用历史数据提升了 API(以及您项目的)成功率。内部数据显示,网页抓取的最佳配置是使用真实的网页浏览器并配合住宅 IP 地址。因此,我们 API 的默认参数为:
当然,您也可以覆盖这些参数的值,尽管我们并不建议这样做。使用基础 HTTP 客户端和数据中心代理进行抓取通常会导致目标网站察觉到抓取活动并阻止访问。
接下来,我们将讨论可选参数。由于我们在文档中已详细记录了所有参数,因此目前仅讨论使用频率最高的参数:
关于响应码,您必须了解的一个最重要方面是:我们仅对成功的响应收费。因此,如果您的请求返回的状态码不是 200,则不会产生费用。此外,API 错误已在此处记录,如您所见,它们遵循常规的 HTTP 状态码。举几个例子:
如前所述,主要有三种方式可以与网页抓取 API 交互。首先,使用 SDK 或通过 HTTP 客户端访问 API 更依赖于特定语言(或技术),且需要一定的技术背景。 我们的仪表盘中提供了更适合初学者的界面,位于“API 沙盒”下。在进行编程实现或使用高级功能之前,该工具可让您先试用我们的网页抓取工具,进行测试,并掌握如何有效利用各项参数。沙盒的主要特点包括:
对于高级用户,我们的 API 集成了多种功能,使其高度可定制,并能满足任何爬取项目的需求。我们的官方文档仍是获取信息的绝佳来源。不过,以下是值得重点关注的一些方面:
使用网页抓取 API 时,您并非仅限于使用 GET 请求。若您的抓取项目需要创建、替换或更新资源,可使用我们的 POST、PUT 或 PATCH 请求。这些请求的关键特性在于,您还可以使用 `render_js=1` 参数,这意味着将使用真正的网页浏览器,而非简单的 HTTP 客户端。以下是一个 POST 请求的示例:
curl --request POST --url "https://api.webscrapingapi.com/v1?api_key=<YOUR_API_KEY>&url=https%3A%2F%2Fhttpbin.org%2Fpost" --data "{
"foo": "bar"
}"Web Scraping API 提供了一套功能强大的抓取工具,由工程师团队提供支持且开箱即用。它集成了数十项功能,使其成为一款可定制的网页抓取解决方案。 此外,您可以将这款通用型云端网页抓取工具与任何编程语言或技术进行集成,因为它既能返回原始 HTML,也能返回已解析的 JSON 数据。同时,我们详尽的文档和公开的 GitHub 仓库将助您快速启动项目。
希望本指南能为您提供良好的起点,如有任何疑问,我们的支持团队随时为您服务。期待与您携手共创成功!

Mihnea-Octavian Manolache 是 WebScrapingAPI 的全栈及 DevOps 工程师,负责开发产品功能并维护确保平台平稳运行的基础设施。