返回博客
指南
Mihai MaximLast updated on Mar 31, 20262 min read

像专家一样开始使用 Web Stealth Proxy:快速入门指南

像专家一样开始使用 Web Stealth Proxy:快速入门指南

Web Stealth Proxy 是一款基于机器学习的代理解决方案,能够绕过复杂的反机器人系统,助您抓取任何网站。使用 Web Stealth Proxy,您只需发送一个请求,剩下的工作将由我们的系统全权处理。 得益于其先进的技术和方法,Web Stealth Proxy 总能领先于封锁机制一步,并适应不断变化的网站限制。这意味着您可以放心,您的抓取过程将始终顺畅无阻,从而帮助您提取成功所需的数据。

您准备好将您的网页抓取能力提升到新高度了吗?这份快速入门指南包含您开始使用 Web Stealth Proxy 所需的一切。

Web Stealth Proxy 能为您提供什么?

无阻截爬取——我们的智能 IP 轮换算法确保您的 IP 地址不会被封禁或限速

模拟真实用户爬取——借助代理、动态指纹识别和自定义 Cookie,让您的爬取请求更具自然感

全球任意地点提取本地化数据——借助 Web Stealth Proxy 覆盖 195 个国家/地区及 1 亿多个独立 IP,无阻获取本地化数据

全天候实时支持——随时获得我们客户支持团队的专业协助

无缝集成——通过单一入口的代理式系统,轻松将 Web Stealth Proxy 集成到您的现有代码中

技术特性

基于机器学习的代理管理——为您的目标网站选择最佳代理池。

动态指纹识别——自动选择正确的标头、Cookie、浏览器属性和代理,以模仿真实用户的行为并掩盖您的机器人的身份。

自动重试功能——在失败时选择新参数并重新发送请求。

JavaScript 渲染——我们的无头浏览器会加载网页的全部内容,让您能够轻松抓取动态网站。

会话控制——可为每次请求切换不同 IP,或保持同一 IP 长达 5 分钟。

购买与订阅信息

Web Stealth Proxy 让您轻松规划爬取项目。我们根据通过代理发出的成功请求数量,提供五种不同的套餐。

免费试用 - 10,000 次请求

入门版 - 250,000 次请求

成长版 - 500,000 次请求

商务版 - 1,000,000 次请求

专业版 - 2,000,000 次请求

有关各套餐的更多信息,请点击此处

使用 Web Stealth Proxy

使用 Web Stealth Proxy 发送请求非常简单,特别是如果您之前曾使用过常规代理进行网页抓取。请注意,您需要禁用 SSL 证书验证(例如在 cURL 中使用 -k 开关,在 Python 中设置 verify=false 等)

可通过以下方式访问 Web Stealth Proxy:

HTTPS at stealthproxy.webscrapingapi.com:8000
HTTP at stealthproxy.webscrapingapi.com:80

您的 Web Stealth Proxy 凭据存储在 Web Stealth Proxy 服务页面的“从这里开始”部分。

以下是使用 cURL 发送简单请求的示例:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR_PROXY_USERNAME>:<YOUR_PROXY_PASSWORD>" \

-X GET "https://httpbin.org/get"

您无需指定任何参数。我们的系统会自动添加所有标准头部信息,选择最快的代理,并将响应返回给您。若要使用更高级的功能(例如选择特定的代理位置或为多个请求使用相同的 IP),您可以在请求中添加额外的头部信息。

您可以在我们的文档中找到更多代码示例

地理位置设置

Web Stealth Proxy 允许您通过在请求中传递 X-WSA-Geo-Location 头部,从不同国家/地区发送请求。

以下是从位于德国的 IP 地址发送请求的方法:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X GET "https://httpbin.org/get" \

--header "X-WSA-Geo-Location: de"

您可以在此处查看所有受支持地理位置的完整列表。

会话控制

您可以创建并使用新会话,以便抓取同一网站的多个页面,并在每次请求中重复使用相同的代理(IP 地址)。要使用相同的 IP,只需添加 X-WSA-Session-ID 标头并指定任意整数值。该值将用于标识您创建的新会话:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X GET "https://httpbin.org/get" \

--header "X-WSA-Session: 1234"

您的会话将在最后一次使用后 5 分钟过期。

更多其他语言的代码示例请参见此处

自定义标头

当您希望在请求中提供额外信息时,自定义 HTTP 头部非常有用。如果您的请求需要传递自定义 HTTP 头部,只需在头部名称前添加 WSA- 前缀,然后将其加入请求即可:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X GET "https://httpbin.org/get" \

--header "WSA-random-header: random" \

--header "WSA-User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64)"

点击此链接查看其他语言的代码示例。

您还可以为目标网站设置自定义 Cookie。自定义 Cookie 的处理方式与自定义标头完全相同。若要在请求中添加自定义 Cookie,只需在发送请求时将名称和值传递给 WSA-Cookie 自定义标头即可:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X GET "https://httpbin.org/get" \

--header "WSA-Cookie: SID=abcd"

更多不同语言的代码示例请参见此处

JavaScript 渲染与截图

Web Stealth Proxy 使用无头浏览器渲染任何网页的完整内容,并返回生成的 HTML。添加 X-WSA-Render: screenshot 即可获取该页面的截图。请求将返回一个包含 base64 加密图像的 JSON 对象:

curl -k -x "http://stealthproxy.webscrapingapi.com:80" \

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X GET "https://httpbin.org/get" \

--header "X-WSA-Render: screenshot"

点击此处查看其他编程语言的代码示例。

POST 请求

您需要向目标网站发送数据吗?Web Stealth Proxy 同时支持 POST 和 PUT 请求。

curl -k -x "http://stealthproxy.webscrapingapi.com:80"\

-U "<YOUR-PROXY-USERNAME>:<YOUR-PROXY-PASSWORD>" \

-X POST "https://httpbin.org/get" \

--data '{"foo":"bar"}'

您可以在这里找到更多不同编程语言的代码示例。

使用与统计

您可以随时访问 Web Stealth Proxy 服务页面的“统计”部分查看您的积分使用情况:

每次成功请求仅扣除 1 个积分。若请求返回 200 状态码,则视为成功。

结论

Web Stealth Proxy 是网络爬虫任务的理想选择。无需手动处理验证码、封禁及其他限制,Web Stealth Proxy 将以极高的成功率(通常为 100%)为您自动完成解锁流程。

如果您对 Web Stealth Proxy 有任何其他疑问或需要使用帮助,我们的支持团队随时为您提供协助。您可随时通过在线聊天或电子邮件联系我们,我们将很乐意为您提供所需的指导。

关于作者
Mihai Maxim, 全栈开发工程师 @ WebScrapingAPI
Mihai Maxim全栈开发工程师

米海·马克西姆(Mihai Maxim)是 WebScrapingAPI 的全栈开发工程师,他在产品各领域均有贡献,并协助为该平台构建可靠的工具和功能。

开始构建

准备好扩展您的数据收集规模了吗?

加入2,000多家企业,使用WebScrapingAPI在无需任何基础设施开销的情况下,以企业级规模提取网络数据。