返回博客
网络爬虫技术
Mihnea-Octavian ManolacheLast updated on Mar 31, 20261 min read

最优秀的反检测浏览器,助您安全高效地进行网页抓取

最优秀的反检测浏览器,助您安全高效地进行网页抓取

在网页抓取行业中,反检测始终是一个重大问题。这就像是抓取工具与反机器人系统之间永无休止的猫鼠游戏。对于任何想要抓取数据的人来说,使用反检测浏览器已成为必要条件。但反检测浏览器的用途并不局限于网页抓取。人们还将其用于管理多个社交媒体账号、电子商务等领域。即使是关注隐私的用户,也能从反检测浏览器中获益。

今天的文章将重点探讨这一领域。我们将讨论反检测浏览器、其应用场景、实际效果,以及2023年该选择哪家供应商。我还将向大家介绍浏览器指纹识别技术。请做好准备,今天要聊的内容可不少。

什么是反检测浏览器?

从字面上看,反检测浏览器的定义已部分体现在其名称中。每款常规浏览器(如Chrome或Firefox)都有其独特的在线身份,我们称之为“指纹”。浏览器的指纹识别机制非常复杂,涉及以下因素:

  • 您的IP地址
  • 您随请求发送的用户代理
  • 浏览器的属性

在我看来,最后一点最为关键。这是因为互联网上的任何人都可以编写一个相对简单的脚本,来获取浏览器的某些属性。而最重要的是,几乎每次将这些值组合起来,都会生成一个独特的系统配置。实际上,人们可以对这些属性的字符串化组合值进行哈希运算,从而生成一个指纹。例如 FingerprintJSCreepJS

此外,检测并非仅限于 window 作用域。我甚至开发了一款工具,通过对比从 window 和 worker 中收集的值,能够检测到诸如 `puppeteer-extra-plugin-stealth` 实现的规避手段。但这属于更复杂的讨论范畴。目前看来,在网上不被检测到的最佳方式似乎是使用反检测浏览器。

这又回到了我们的主题。反检测浏览器是基于已知浏览器的应用程序,经过修改后能够为我们之前讨论的属性接受自定义值。由于 Chromium 或 Mozilla 等项目是开源的,任何人都可以分叉它们并创建自己的浏览器版本。反检测浏览器正是如此。

例如,您也可以克隆 Chromium,并对其进行调整,使其为浏览器的各种属性提供随机值。但在实践中,这需要大量的专业知识和资源。这就是为什么存在一些知名供应商,我们稍后会介绍它们。但首先:

反检测浏览器有何用途?

反检测浏览器有许多应用场景。然而,某些行业比其他行业更依赖这些浏览器。因此,我将具体说明反检测浏览器的应用场景及其使用原因。鉴于其最大的优势在于匿名性,以下是反检测网络浏览器的最常见应用场景:

  • 营销机构:联盟营销人员或社交媒体代理机构通常需要管理多个社交媒体账号。实际上,社交媒体平台会禁止此类操作。从平台角度来看,理想状态下一台设备应仅管理一个账号,否则可能导致滥用。由于反检测浏览器能创建多个独立身份,您可轻松利用它们进行此类活动管理。
  • 电商卖家:亚马逊卖家或代发货商中存在一种普遍(但未公开)的做法,即使用多个账户销售产品。这能扩大他们的覆盖范围,并间接提升销量。同样,大型电商平台通常不允许此类行为。而防检测浏览器在此情况下也能发挥作用。
  • 网页抓取:近年来,网页抓取已成为一项真正的挑战。如今,识别网页驱动程序(自动化浏览器)的指纹比几年前要容易得多。正如您可能已经猜到的,几乎所有网站都在试图规避机器人。由于网页抓取工具属于这一类,网站通常会试图阻止其访问。

反检测浏览器在实际应用中究竟有多高效?

根据供应商的不同,反检测浏览器可能相当有效。在开发 Web Scraping API 的隐身模式时,我有机会尝试了各种规避技术。其中一项就是测试反检测浏览器。这可能令人惊讶,但我们能够识别出经过修补的 Puppeteer 和 Selenium 的自动化浏览器,却无法识别反检测浏览器。

作为额外的一层检测机制,我们通过测试发现,用于生成自定义指纹的参数值对识别Web驱动程序也至关重要。例如,随机生成的数值是绝对不可取的。相反,在生成指纹时,请尝试:

  • 使用真实的用户代理
  • 使用与用户代理匹配的设备平台
  • 添加真实的浏览器插件数组

以上仅举几例。核心要点在于使用真实且匹配的信息。此外,若选择特定供应商,请尽量遵循其建议。

2023年顶级反检测浏览器

在相关文章中,我曾提到最好的反检测浏览器是你自己构建的。但老实说,即使以开源项目为起点,构建浏览器仍需耗费大量精力。因此,如果你没有组建团队的资源,选择以下供应商之一会是更好的选择:

#1:GoLogin

GoLogin虽是反检测浏览器领域的新秀,但其性能毫不逊色。 我首先注意到的是其支持渠道。用户不仅可以通过电子邮件或聊天工具联系,还能通过 WhatsApp、Telegram 和 Facebook Messenger 获取支持。GoLogin 的第二个亮点是其代理支持功能。该浏览器默认内置了大量代理。第三个亮点与访问方式相关。GoLogin 提供了桌面应用、移动应用和网页应用供用户使用。用户可以通过云端访问该工具,这一点相当令人印象深刻。

该浏览器基于谷歌Chrome开发,经过修改后能为每个配置文件生成新的指纹。一个缺点是,它并非篡改所有参数值,而是对部分参数添加了噪声。测试表明这可能会导致更多验证码,说明反机器人系统仍能检测到部分自动化活动。

价格方面,GoLogin 的月费起价为 49 美元,最高可达 199 美元。他们还提供可定制的套餐,最高可达每月 1999 美元,包含 10,000 个云配置文件及其他权益。若按年支付,您还可享受 50% 的折扣。更多详情请查阅其定价页面。总结如下:

#2: Multilogin

根据其官网介绍,Multilogin 提供“完整的指纹自定义”功能。这意味着您可以完全访问浏览器的各项属性,并以多种方式进行调整。 此外,他们是少数不禁用浏览器功能的供应商之一。禁用浏览器功能(如服务 worker)虽不会立即暴露自动化浏览器的身份,但普通用户极少甚至从不禁用此类功能,这反而可能引发机器人检测器的警报。

现在回到 Multilogin。他们所做的是分叉了 Chrome 和 Firefox,并构建了自己的可定制版本。其图形界面允许您生成快速配置文件(附带指纹),或者自行伪造某些值。 我认为 Multilogin 唯一的缺点是价格。目前起价为每月 99 美元,最高可达每月 399 美元(本文撰写时)。如需查看最新价格,请访问他们的定价页面。最后总结一下,以下是关键信息:

#3: AdsPower

与 Multilogin 类似,AdsPower 提供了两款反检测浏览器。一款基于 Chromium,名为 Sun Browser;另一款基于 Firefox,名为 Flower Browser。两者均具备管理浏览器指纹的附加功能。这款反检测浏览器的亮点在于其内置的自动化功能。利用 AdsPower 的机器人流程自动化(RPA),几乎无需编程即可实现任务自动化。

该公司于 2019 年在香港成立,并迅速发展成为 Multilogin 的主要竞争对手之一。其成功部分归功于浏览器所具备的卓越功能,而另一部分我认为则源于其低廉的价格。AdsPower 甚至提供免费套餐,允许您使用两个配置文件,其专业版计划每月仅需 50 美元。 就个人而言,我认为这是最具吸引力的解决方案。至此,让我们总结一下:

#4:X-Browser

X-Browser这款反检测浏览器本身是免费的,这无疑极具吸引力。该浏览器由smartproxy提供,可免费下载。唯一的“陷阱”在于您需要为代理付费。不过,这其实并无弊端,因为无论选择哪种方案,您都需要代理来隐藏IP并避免被封禁。

将 X-Browser 绑定到其自有代理既有利也有弊。一方面,用户可以相信 smartproxy 会为其代理提供优化方案;另一方面,您只能使用 smartproxy 的代理。绑定到单一提供商意味着受限于其服务质量。如果您想扩大活动规模,我认为您需要更大的灵活性。

由于仅需为代理付费,X-Browser的定价相当合理。其数据中心代理每月费用在10至45美元之间。住宅代理可能稍贵,但这完全取决于您的使用量。点击此处查看价格。那么,让我们总结一下X-Browser:

#5: Kameleo

Kameleo 堪称变色龙。它支持所有主流网页浏览器(Chrome、Safari、Firefox 和 Edge),并可与主要自动化框架(Puppeteer、Selenium 和 Playwright)配合使用。不仅如此,他们还提供移动设备的指纹定制服务。据其官网介绍,Kameleo Mobile 可在任何 Android 设备上伪造您的指纹。

与竞争对手不同,Kameleo 的服务核心并非浏览器本身,而是围绕浏览器配置文件展开。这意味着,他们并不一定通过修改开源浏览器来创建自己的版本。

我们对其平台进行了一些测试,发现的主要缺点是客户支持响应非常缓慢。除此之外,定价还算合理:月费为 59 至 199 美元。那么,让我们总结一下:

#6:Incognito

Incognito是另一款提供免费套餐的反检测浏览器。与AdsPower不同,它提供10个免费浏览器配置文件。其浏览器基于Chromium内核,功能与其他反检测浏览器基本一致。 该产品还提供了一个API,允许您与无头浏览器进行交互。除了慷慨的免费套餐外,其月费范围为29.99至149.99美元。我认为,以他们提供的功能而言,这个价格是合理的。现在总结一下:

#7: Linken Sphere

Linken Sphere 是一款基于 Chromium 的反检测浏览器,由俄罗斯团队 Tenebris 提供。该产品于 2017 年推出,是市场上历史最悠久的解决方案之一。 其主要缺点在于整体形象颇为可疑。目前该服务仅接受比特币支付,且主要通过其Telegram频道提供支持。此外,据称该服务常被用于黑客攻击或诈骗等非法活动。不过除此之外,其功能表现相当出色。至此,本文正式结束:

结论

浏览器指纹识别会让网页抓取变得极其困难。若想不被察觉,您需要兼顾诸多方面。代理服务器、验证码破解工具以及隐蔽的无头浏览器,仅仅是构建可靠网页抓取工具的几项“必备要素”。综合来看,这将产生极高的开发和维护成本。另一种选择是使用成熟的第三方网页抓取服务。 而 Web Scraping API 正是为此而生。我甚至敢说,其成本仅为自建方案的一小部分。

关于作者
Mihnea-Octavian Manolache, 全栈开发工程师 @ WebScrapingAPI
Mihnea-Octavian Manolache全栈开发工程师

Mihnea-Octavian Manolache 是 WebScrapingAPI 的全栈及 DevOps 工程师,负责开发产品功能并维护确保平台平稳运行的基础设施。

开始构建

准备好扩展您的数据收集规模了吗?

加入2,000多家企业,使用WebScrapingAPI在无需任何基础设施开销的情况下,以企业级规模提取网络数据。