彻底摆脱网络抓取时的 IP 屏蔽
Anda Miuțescu,2021 年 5 月 11 日
让我们为您描绘一幅画面:
您已经意识到互联网上有大量宝贵的数据可以帮助您的业务,因此您决定利用这些数据。您学习了数据提取的相关知识,并用 Python 构建了自己的 scraper。一切准备就绪--您选择了一个网页,并让机器人开始工作。然后,网站突然屏蔽了您的刮擦器,不让您提取信息。
运气不好,但别担心,解决方法再简单不过了。
如今,公司经常会进行数据扫描,因为收集到的信息可以通过各种方式用于提高盈利能力。最常见的问题之一是在搜索过程中被拦截。我们使用多种方法来防止这一问题,其中包括 IP 轮换,也就是今天文章的主角。
但这里有一个相当常见的问题:如果你是合法、合乎道德地提取数据,为什么网站还要试图阻止你的机器人?很简单,因为他们不知道你的意图,而且不采取行动对他们的损失太大。
机器人在网站所有者心目中的名声很坏,因为它们被用作破坏者、入侵者或一般滋扰者。这种观点的问题在于,机器人只是一种工具。没有人抱怨谷歌用来查找和索引网页的机器人。问题的关键是--机器人既可以是好的,也可以是坏的,这取决于它们是如何被使用的。
有鉴于此,网站所有者有理由不信任机器人。机器人有意无意地造成问题的方式有很多:
- 它们会扰乱网站的分析。分析软件一般不会检测到机器人访客,因此会将它们计算在内,导致报告出现偏差。
- 它们可以发送大量请求,最终导致主机服务器速度减慢,甚至可能导致其他访问者无法访问网站。这通常是故意的,被称为 DDoS 攻击。
- 对于依赖网页广告收入的网站来说,机器人一开始似乎是个福音,因为它们能为网站带来更多收入。问题是,广告网络也不是傻瓜--他们会注意到一些广告是由机器人浏览的,这是一种点击欺诈行为。毋庸置疑,网站不希望因此受到指控。
- 电子商务网站可能会因为机器人而头疼不已。有些脚本会在新产品上市的第一时间购买,这样创建者就可以转售获利,人为制造稀缺性。或者,机器人会扰乱库存,将商品添加到购物车后停止,从而有效地阻止真正的购物者访问这些商品。
简而言之,你不能责怪网站对机器人有戒心。下一个问题是,它们最初是如何识别你的?
为什么是我?
网站是为人类建立的(一般来说),如果检测到外来机器人,如网络搜刮器,网站很可能会阻止它。那么问题来了--网站是如何追踪到你的机器人的?
网站要封杀你,首先要识别僵尸,而识别的方法就是监控异常的上网行为。
网络搜刮器比任何人都快,这是它的魅力所在,但这往往也是它的致命伤。如果你让机器人从一个网站上抓取十个网页,它会在比你发出请求更短的时间内完成任务。网站只需看到一个 IP 发送十个请求的速度比任何人都快,就会识别出机器人。
还有其他方法,其中最广为人知的是
- 浏览器指纹识别
- TLS 指纹
- 在已知代理列表中检查 IP
此外,还有其他针对网络刮擦程序的对策,如验证码,但这些对策更多是为了阻止可疑行为,而不是检测可疑行为。
如何避免被 IP 隔离
避免 IP 屏蔽的有趣之处在于,你拥有的 IP 越多,其中任何一个被发现的可能性就越小。当然,如果有些 IP 还是会被封禁,那你就还有很多 IP。
因此,您的第一站就是一个强大的代理池。为此,你需要找一家可靠的代理池提供商,因为这是最划算的选择。您只需支付月费,就能访问数十万甚至数百万个 IP,而无需购买 IP。
除了代理服务器的数量,您还必须看看代理服务器池的组成。有些 IP 比其他 IP 更显眼,而有些网站则更敏感。您可以使用高级代理来进行所有搜索,但这样会造成浪费,因为更好的代理要花更多的钱。
重要的是,您可以使用所有可能需要的工具,并掌握针对各种情况选择正确工具的知识。
最后一个难题是轮换使用 IP。使用相同的代理服务器会导致我们前面提到的问题--单一 IP 发出的请求速度太快,不像是人发出的。但是,有了你的代理池,你就可以从不同的来源发送每个请求。网站看到的不再是一个超级活跃的用户,而是十个几乎同时冲浪的不同用户。
以上只是对您需要考虑的问题的一个简单概述。现在,让我们来详细介绍一下应该使用什么样的代理以及如何更好地使用它们。
找到合适的伪装
有很多不同的代理可以选择,也有很多标准需要考虑。一开始,这个问题可能看起来非常复杂,你可能会想放弃,但请坚持住!只要读一读像这篇文章这样内容丰富、简明易懂的文章,你就能掌握基本知识!
首先,我们来谈谈匿名性,这是代理 IP 的主要吸引力。首先,这并不是必然的,有些代理并不试图隐藏你的真实 IP,它们只是充当中间人而已,这些代理被称为透明代理。当通过这样的 IP 提出请求时,其中一个标头会通知网站它实际上是一个代理,而另一个标头则会发送您的真实地址。
其次,使用伪装并不意味着就能骗过任何人。匿名代理可以隐藏你的真实地址,但不能掩盖它们是代理的事实。请求头再次暴露了你的身份。网站不知道你是谁,也不知道你在哪里,但他们会知道有人在用 IP 访问。
最后是高匿名性代理,也称为精英 代理。这些代理才是真正的代理,因为它们不仅会对你的身份保密,而且不会宣布自己是代理。别误会,无论伪装得多好,意志坚定的网站管理员都会识别出所有代理,但精英代理仍是不被发现的最佳选择。
对于网络搜索,通常有两种类型的广告代理:数据中心代理和住宅代理。这两种类型的 IP 都会掩盖您的实际地址,区别主要在于它们的性质。
数据中心代理是基于云的 IP,没有实际位置。这些代理建立在现代化的基础设施上,价格相当低廉,您可以访问几千个代理而不需要破费。此外,数据中心 IP 使用良好的互联网连接,因此提取数据的速度比其他类型的代理更快。不足之处在于,数据中心 IP 没有真实的位置,而且是共享子网(同一 "家族 "的所有代理服务器的部分 IP 都是相同的),因此更容易被发现和封杀。
住宅代理可以说是高质量的选择,因为它们是真实的 IP,由真实的互联网服务提供商提供,并拥有真实的物理位置。简而言之,它们与普通访问者几乎没有区别。代理池应包含尽可能多的不同地点的居民 IP,以确保良好的速度和访问受地理限制的内容。在获得最佳效果的同时,住宅代理服务器的价格较高也就不足为奇了。
隐藏踪迹
如果代理做得好,就会让你的机器人的 IP 看起来像是它的真实地址。这一切都很好,但代理无法掩盖机器人的工作方式,即速度非常快。因此,如果使用单一的高质量代理,您的机器人就会被屏蔽代理 IP,您又会回到原点。
如果你有多个代理,你可以在每次请求时切换到不同的代理,这样一个狂热的机器人的活动看起来就像一群不同的用户。如果一切顺利,所有 IP 都不会被阻止,网络搜刮器也就完成了任务。
您可以手动切换代理,但这个过程漫长而令人沮丧,与使用机器人的初衷背道而驰。因此,大多数有价值的网络搜刮工具都具有自动代理轮换功能。
对于 WebscrapingAPI 来说,情况是这样的:您对每个网页的每次请求都会自动通过不同的 IP 进行。即使你对同一个网页进行了一百次抓取,网站也会将其记录为一百个不同的访问者访问了该网页。
在某些情况下,你可能真的希望网站能识别你。在这种情况下,您只需修改请求中的一个参数,就可以在再次访问页面时使用相同的 IP。
如果您想从同一网站的多个页面中提取数据,旋转代理是完全必要的。自动代理旋转的目的就是让这一过程变得简单轻松。
保证的话
当网络搜刮器被网站屏蔽时,不必惊慌,因为只要我们没有侵犯任何版权,绕过限制并不意味着做了违法的事。值得庆幸的是,IP 轮换可以快速有效地解决世界上搜刮器被封的问题。
如果想体验快乐的刮刮乐,请试用我们的免费计划,获得 1000 次无附加条件的 API 调用。
新闻和更新
订阅我们的时事通讯,了解最新的网络搜索指南和新闻。
We care about the protection of your data. Read our <l>Privacy Policy</l>.Privacy Policy.

相关文章

通过我们的深入指南,探索刮擦亚马逊产品数据的复杂性。从最佳实践和亚马逊 Scraper API 等工具到法律注意事项,了解如何应对挑战、绕过验证码并高效提取有价值的见解。




为了了解两种不同的 DAO 去中心化模式之间的区别,我们将对相似但本质上不同的新作品 ice 和 Pi 进行回顾。
