Web Scraping API 快速入门指南

WebScrapingAPI 提供了一套完整的网页抓取解决方案。我们的主打产品是一款通用型网页抓取工具，旨在从任何网站收集实时数据。正如您将在本指南中看到的，该工具集成了多种功能，使其能够避开反机器人系统的检测。鉴于其功能丰富，本指南旨在帮助您快速入门 WebScrapingAPI。以下是我们将要介绍的部分内容：

使用前端控制面板
了解 API 的参数与功能
向 API 发送基本请求
使用 SDK 搭建复杂的网页抓取工具

为何选择 Web Scraping API

选择 Web Scraping API 而不是普通爬虫的理由不胜枚举。不过，在决定我们为何是最佳选择时，我们更看重用户的反馈。以下是客户选择我们的部分原因：

专业支持——我们的技术支持团队由实际参与 API 开发的软件工程师组成。因此，当您联系我们寻求帮助时，我们确保为您提供最专业的解答。此外，如果您遇到任何问题，负责对接的工程师通常能在极短时间内甚至即时解决问题，并将修复方案部署到生产环境。
易用性——构建网络爬虫可能颇具挑战。您需要考虑各种代理、反检测机制、验证码、浏览器等因素。而使用 Web Scraping API，您只需“点击一下按钮”，即可获得所有这些功能（以及更多）。
可扩展性 - 在构建产品时，我们的首要任务之一就是确保无论接收多少请求，都能稳定交付结果。注册 Web Scraping API 即意味着您将获得我们完整的基础设施支持，其中包括代理、浏览器、HTTP 客户端等资源。

注册免费云端爬虫

注册 Web Scraping API 仅需一个有效的电子邮箱地址。此外，每位用户均可享受 7 天免费试用期，在此期间可完全使用 API 的各项功能，但 API 积分上限为 1000 点。 7天试用期结束后，您仍可使用免费套餐，每月提供1000个API积分，但API功能有所限制。若您希望继续使用我们云端网页抓取工具的完整版，我们提供灵活的定价方案。您可访问“定价”页面查看最新价格信息。值得一提的是，我们提供：

入门套餐，提供高达100,000个API积分及20个并发调用
“成长”套餐，提供高达 1,000,000 个 API 积分和 50 个并发调用
企业版：最高 3,000,000 个 API 积分，支持 100 个并发请求
专业版：最高 10,000,000 个 API 积分，支持 500 个并发调用
定制版企业计划：将根据您的具体需求进行商讨

开始使用前，请访问此处的注册页面，轻松创建一个免费账户。

了解仪表盘

在仪表盘上注册并不意味着您自动获得了使用我们产品的权限。如您所见，左侧边栏显示了与我们产品相关的几个选项。由于本指南涉及通用网页抓取工具，若要为此服务创建订阅，请导航至“Web Scraping API”并点击“获取免费试用”按钮。订阅创建完成后，系统将为您提供一个 API 密钥。请务必妥善保管该密钥，因为它将是您在我们系统中的唯一标识符。随后，您还将能够访问统计页面和测试环境。

我们的网页抓取 API 基础知识

与我们的网页抓取工具交互主要有三种方式，其中两种可称为“编程化”方式，另一种则更“适合初学者”。前两种方式需通过 HTTP 客户端或我们的 SDK 访问 API。第三种则是使用仪表盘内提供的“Playground”。我们稍后会详细介绍这些内容，但在那之前，了解 API 的工作原理至关重要。只有这样，您才能充分发挥 Web Scraping API 的全部功能。那么，让我们从基础开始：

请求认证

我们通过启用 `api_key` URL 参数来验证来自注册用户的请求。该唯一的 API 密钥与您的账户相关联，并包含权限、使用情况等信息。

请注意，您注册的每个产品都关联着一个唯一的 API 密钥。例如，您无法将通用网页抓取工具的 API 密钥用于 SERP API，反之亦然。

综上所述，若要以认证用户身份抓取 URL，您需要访问以下资源：

https://api.webscrapingapi.com/v1?api_key=<YOUR_UNIQUE_API_KEY>

API 参数

在我们的 API 中，查询参数用于根据您的需求定制爬虫。了解每个参数的工作原理，将使我们能够充分发挥 Web Scraping API 的全部功能。我们在此处维护着最新的 API 参数文档。不过，我们还将在本文中深入探讨这些参数，以便更好地理解查询参数在 Web Scraping API 中的工作原理。话虽如此，参数分为三种类型：必填、默认和可选。必填参数非常简单：

上文已提及的 `api_key` 参数
`url` 参数，代表您想要抓取的 URL

请注意，`url` 参数的值应为有效的 URL（而非域名），且最好采用 URL 编码格式。（例如：https%3A%2F%2Fwebscrapingapi.com）

关于默认参数，我们利用历史数据提升了 API（以及您项目的）成功率。内部数据显示，网页抓取的最佳配置是使用真实的网页浏览器并配合住宅 IP 地址。因此，我们 API 的默认参数为：

`render_js=1` - 用于启动真实的浏览器（而非基础的 HTTP 客户端）
`proxy_type=residential` - 通过住宅IP地址访问目标网站（仅当您的当前套餐支持住宅代理时才启用）

当然，您也可以覆盖这些参数的值，尽管我们并不建议这样做。使用基础 HTTP 客户端和数据中心代理进行抓取通常会导致目标网站察觉到抓取活动并阻止访问。

接下来，我们将讨论可选参数。由于我们在文档中已详细记录了所有参数，因此目前仅讨论使用频率最高的参数：

参数：render_js 描述：启用此参数后，您将通过实际浏览器访问目标 URL。其优势在于能够渲染 JavaScript 文件。对于抓取 JavaScript 密集型网站（例如使用 ReactJS 构建的网站），这是一个绝佳的选择。文档：[此处 ]
参数：proxy_type 描述：用于通过住宅IP或数据中心IP访问目标URL。文档：[此处 ]
参数：stealth_mode 说明：网页抓取并非非法活动。然而，某些网站往往会阻止自动化软件（包括网页抓取工具）的访问。我们的团队设计了一套工具，使反机器人系统几乎无法检测到我们的网页抓取工具。您可以通过使用 stealth_mode=1 参数启用这些功能。文档：[此处 ]
参数：country 描述：用于从特定地理位置访问目标网站。查看支持的国家/地区 [此处]。文档：[此处 ]
参数：timeout 描述：默认情况下，我们在 10 秒后终止请求（若失败则不收费）。针对某些目标，您可能需要将此值延长至 60 秒。文档：[此处 ]
参数：device 描述：您可以使用此参数让您的爬虫模拟“桌面”、“平板”或“移动设备”的设备类型。文档：[此处 ]
参数：wait_until 说明：简而言之，一旦到达目标 URL，它会暂停抓取器，直到发生特定事件。我们遵循的概念在[此处]有详细说明。文档：[此处 ]
参数：wait_for 说明：此参数将爬虫暂停指定时间（不超过 60 秒）。文档：[此处 ]
参数：wait_for_css 描述：暂停爬虫，直到页面上出现特定的 CSS 选择器（即类名或 ID）。文档：[此处 ]
参数：session 描述：允许您在多个请求中使用相同的代理（IP 地址）。文档：[此处 ]

响应状态码

关于响应码，您必须了解的一个最重要方面是：我们仅对成功的响应收费。因此，如果您的请求返回的状态码不是 200，则不会产生费用。此外，API 错误已在此处记录，如您所见，它们遵循常规的 HTTP 状态码。举几个例子：

400：请求错误 - 例如当您发送了无效参数时
401: 未授权 - 未发送 `api_key` 或 API 密钥无效时
422: 无法处理的实体 - 当 API 无法满足请求时（例如，您等待的 CSS 选择器在页面上不可见）

与 Web Scraper API 交互

如前所述，主要有三种方式可以与网页抓取 API 交互。首先，使用 SDK 或通过 HTTP 客户端访问 API 更依赖于特定语言（或技术），且需要一定的技术背景。我们的仪表盘中提供了更适合初学者的界面，位于“API 沙盒”下。在进行编程实现或使用高级功能之前，该工具可让您先试用我们的网页抓取工具，进行测试，并掌握如何有效利用各项参数。沙盒的主要特点包括：

它会自动修正参数冲突（例如 `stealth_mode=1` 与 `render_js=0` 不兼容）
提供多种编程语言的实际代码示例，供您在项目中使用
它会根据我们的内部测试及历史请求数据，显示推荐参数，从而帮助您提高项目的成功率

高级网页抓取功能

对于高级用户，我们的 API 集成了多种功能，使其高度可定制，并能满足任何爬取项目的需求。我们的官方文档仍是获取信息的绝佳来源。不过，以下是值得重点关注的一些方面：

POST、PUT 和 PATCH

使用网页抓取 API 时，您并非仅限于使用 GET 请求。若您的抓取项目需要创建、替换或更新资源，可使用我们的 POST、PUT 或 PATCH 请求。这些请求的关键特性在于，您还可以使用 `render_js=1` 参数，这意味着将使用真正的网页浏览器，而非简单的 HTTP 客户端。以下是一个 POST 请求的示例：

curl --request POST --url "https://api.webscrapingapi.com/v1?api_key=<YOUR_API_KEY>&url=https%3A%2F%2Fhttpbin.org%2Fpost" --data "{
  "foo": "bar"
}"

代理模式

您还可以将我们的 API 用作代理来抓取目标 URL。若要通过代理访问 API，您需要注意以下几点：

用于代理认证的用户名始终设置为 `webscrapingapi`，后跟您希望启用的参数，参数之间用点分隔。
密码始终是您的个人 API 密钥

以下是一个可通过代理模式访问网页抓取工具的示例 URL：

https://webscrapingapi.<parameter_1.parameter_2.parameter_n>:<YOUR_API_KEY>@proxy.webscrapingapi.com:8000

总结

Web Scraping API 提供了一套功能强大的抓取工具，由工程师团队提供支持且开箱即用。它集成了数十项功能，使其成为一款可定制的网页抓取解决方案。此外，您可以将这款通用型云端网页抓取工具与任何编程语言或技术进行集成，因为它既能返回原始 HTML，也能返回已解析的 JSON 数据。同时，我们详尽的文档和公开的 GitHub 仓库将助您快速启动项目。

希望本指南能为您提供良好的起点，如有任何疑问，我们的支持团队随时为您服务。期待与您携手共创成功！