返回博客
网络抓取科学
安达·米乌特斯库2021年5月11日阅读时间:8分钟

彻底摆脱网络抓取时的 IP 屏蔽

彻底摆脱网络抓取时的 IP 屏蔽

为什么是我?

网站是为人类建立的(一般来说),如果检测到外来机器人,如网络搜刮器,网站很可能会阻止它。那么问题来了--网站是如何追踪到你的机器人的?

网站要封杀你,首先要识别僵尸,而识别的方法就是监控异常的上网行为。

网络搜刮器比任何人都快,这是它的魅力所在,但这往往也是它的致命伤。如果你让机器人从一个网站上抓取十个网页,它会在比你发出请求更短的时间内完成任务。网站只需看到一个 IP 发送十个请求的速度比任何人都快,就会识别出机器人。

还有其他方法,其中最广为人知的是

  • 浏览器指纹识别
  • TLS 指纹
  • 在已知代理列表中检查 IP

此外还有其他针对网络刮擦程序的对策,如验证码,但这些对策更多是为了阻止可疑行为,而不是检测可疑行为。

如何避免被 IP 隔离

避免 IP 屏蔽的有趣之处在于,你拥有的 IP 越多,其中任何一个被发现的可能性就越小。当然,如果有些 IP 还是会被封禁,那你就还有很多 IP。

因此,您的第一站就是一个强大的代理池。为此,你需要找一家可靠的代理池提供商,因为这是最划算的选择。您只需支付月费,就能访问数十万甚至数百万个 IP,而无需购买 IP。

除了代理服务器的数量,您还必须看看代理服务器池的组成。有些 IP 比其他 IP 更显眼,而有些网站则更敏感。您可以使用高级代理来进行所有搜索,但这样会造成浪费,因为更好的代理要花更多的钱。

重要的是,您可以使用所有可能需要的工具,并掌握针对各种情况选择正确工具的知识。

最后一个难题是轮换使用 IP。使用相同的代理服务器会导致我们前面提到的问题--单一 IP 发出的请求速度太快,不像是人发出的。但是,有了你的代理池,你就可以从不同的来源发送每个请求。网站看到的不再是一个超级活跃的用户,而是十个几乎同时冲浪的不同用户。

以上只是对您需要考虑的问题的一个简单概述。现在,让我们来详细介绍一下应该使用什么样的代理以及如何更好地使用它们。

找到合适的伪装

有很多不同的代理可以选择,也有很多标准需要考虑。一开始,这个问题可能看起来非常复杂,你可能会想放弃,但请坚持住!只要读一读像这篇文章这样内容丰富、简明易懂的文章,你就能掌握基本知识!

首先,我们来谈谈匿名性,这是代理 IP 的主要吸引力。首先,这并不是必然的,有些代理并不试图隐藏你的真实 IP,它们只是充当中间人而已,这些代理被称为透明代理。当通过这样的 IP 提出请求时,其中一个标头会通知网站它实际上是一个代理,而另一个标头则会发送您的真实地址。

其次,使用伪装并不意味着就能骗过任何人。匿名代理可以隐藏你的真实地址,但不能掩盖它们是代理的事实。请求头再次暴露了你的身份。网站不知道你是谁,也不知道你在哪里,但他们会知道有人在用 IP 访问。

最后是高匿名性代理,也称为精英 代理。这些代理才是真正的代理,因为它们不仅会对你的身份保密,而且不会宣布自己是代理。别误会,无论伪装得多好,意志坚定的网站管理员都会识别出所有代理,但精英代理仍是不被发现的最佳选择。

对于网络搜索,通常有两种类型的广告代理:数据中心代理和住宅代理。这两种类型的 IP 都会掩盖您的实际地址,区别主要在于它们的性质。

数据中心代理是基于云的 IP,没有实际位置。这些代理建立在现代化的基础设施上,价格相当低廉,您可以访问几千个代理而不需要破费。此外,数据中心 IP 使用良好的互联网连接,因此提取数据的速度比其他类型的代理更快。不足之处在于,数据中心 IP 没有真实的位置,而且是共享子网(同一 "家族 "的所有代理服务器的部分 IP 都是相同的),因此更容易被发现和封杀。

住宅代理可以说是高质量的选择,因为它们是真实的 IP,由真实的互联网服务提供商提供,并拥有真实的物理位置。简而言之,它们与普通访问者几乎没有区别。代理池应包含尽可能多的不同地点的居民 IP,以确保良好的速度和访问受地理限制的内容。在获得最佳效果的同时,住宅代理服务器的价格较高也就不足为奇了。

隐藏踪迹

如果代理做得好,就会让你的机器人的 IP 看起来像是它的真实地址。这一切都很好,但代理无法掩盖机器人的工作方式,即速度非常快。因此,如果使用单一的高质量代理,您的机器人就会被屏蔽代理 IP,您又会回到原点。

如果你有多个代理,你可以在每次请求时切换到不同的代理,这样一个狂热的机器人的活动看起来就像一群不同的用户。如果一切顺利,所有 IP 都不会被阻止,网络搜刮器也就完成了任务。

您可以手动切换代理,但这个过程漫长而令人沮丧,与使用机器人的初衷背道而驰。因此,大多数有价值的网络搜刮工具都具有自动代理轮换功能。

对于 WebscrapingAPI 来说,情况是这样的:您对每个网页的每次请求都会自动通过不同的 IP 进行。即使你对同一个网页进行了一百次抓取,网站也会将其记录为一百个不同的访问者访问了该网页。

在某些情况下,你可能真的希望网站能识别你。在这种情况下,您只需修改请求中的一个参数,就可以在再次访问页面时使用相同的 IP。

如果您想从同一网站的多个页面中提取数据,旋转代理是完全必要的。自动代理旋转的目的就是让这一过程变得简单轻松。

保证的话

当网络搜刮器被网站屏蔽时,不必惊慌,因为只要我们没有侵犯任何版权,绕过限制并不意味着做了违法的事。值得庆幸的是,IP 轮换可以快速有效地解决世界上搜刮器被封的问题。

如果想体验快乐的刮刮乐,请试用我们的免费计划,获得 1000 次无附加条件的 API 调用。

关于作者
安达·米乌特斯库,技术内容撰稿人 @ WebScrapingAPI
安达-米乌埃斯库技术内容撰稿人

安达·米乌特斯库是 WebScrapingAPI 的技术内容撰稿人,负责创作清晰、实用的内容,帮助开发者了解该产品及其功能。

开始构建

准备好扩展您的数据收集规模了吗?

加入2,000多家企业,使用WebScrapingAPI在无需任何基础设施开销的情况下,以企业级规模提取网页数据。