现代就业市场在很大程度上依赖于线上活动。企业通过网络寻找人才,求职者则通过互联网了解新的远程工作机会。如今,绝大多数人才都是通过网络寻找职位空缺的[4]。难怪自动化解决方案会层出不穷。
职位数据抓取正是企业和个人可采用的此类解决方案之一。在本指南中,我们与 Jooble 合作,全面介绍了职位数据抓取的方方面面。

现代就业市场在很大程度上依赖于线上活动。企业通过网络寻找人才,求职者则通过互联网了解新的远程工作机会。如今,绝大多数人才都是通过网络寻找职位空缺的[4]。难怪自动化解决方案会层出不穷。
职位数据抓取正是企业和个人可采用的此类解决方案之一。在本指南中,我们与 Jooble 合作,全面介绍了职位数据抓取的方方面面。
首先,什么是职位信息抓取?它是一种自动收集在线职位发布信息的流程。为此,企业或个人会编写脚本,通过爬取网站并将信息汇总到一个文件中。此类数据可用于移动应用、电子表格或数据库。
例如,此类机器人或脚本可从招聘信息中提取关键数据,包括:
所有这些信息都会被汇总到一个指定位置,无论是数据库还是电子表格。
现在让我们来谈谈企业或个人为何要编写此类脚本并收集招聘信息相关数据。
这样做有几个重要原因:
例如,Jess DiBiase 发表了一篇关于从美国劳工统计局抓取数据的案例研究 [1]。文中作者详细阐述了构建算法和创建数据框的步骤。基于此,作者成功生成分析数据集,从而观察到各职业的增长百分比及其平均薪资范围。
另一个应用实例是 Boro Nikic(斯洛文尼亚共和国统计局)为“官方统计大数据国际会议”所做的研究 [2]。该研究展示了创建此类算法的步骤以及对获取数据进行处理的工作。
接下来需要解答的问题是:信息从何而来。网络爬虫可以从所有公开的网站上收集数据。然而,关键在于明确哪些网站对特定目的具有实用价值。
以下是最关键的信息来源。
几乎每家企业和组织都在其网站上设有职位空缺页面。招聘信息往往首先发布于此。此类页面包含相关且最新的信息。但手动访问每家公司的页面既重复又耗时。因此,可以使用数据抓取算法。
互联网上的招聘平台板块是另一个关键的信息来源。如今,全球每5个招聘岗位中就有1个来自此类网站。此外,招聘平台吸引了半数以上的在线求职申请[3]。市面上有大量此类网站和聚合平台,有的专注于特定行业,有的则涵盖各类职位。将这些信息整合到一个平台中,可以节省大量时间。
LinkedIn、Facebook或Instagram等平台也能提供大量有价值的数据。然而,在抓取此类网站时必须格外谨慎,因为它们通常会限制此类活动。因此,从Facebook、LinkedIn和Craigslist收集信息会引发特定的法律问题。
许多大型企业都使用应聘者跟踪系统。这些系统同样能提供大量可用于统计或研究的数据。
对于个人而言,数据用途相对简单直接。用户可以构建解决方案来自动化求职流程或进行个人研究。而对于组织而言,收集信息能带来多重益处,具体包括:
若要开发信息抓取算法,您需要聘请专业人员,并制定有效的策略。
职位数据抓取工具的设计、开发和应用初步计划如下:
设定目标。与其他策略一样,明确目标至关重要。目标将决定后续所有步骤。您需要进行竞争对手分析吗?还是想了解薪资方面的市场趋势?您所寻求的数据将影响整个框架。
确定信息来源。下一步是确定收集所需信息最具价值的网站。若决定将Facebook或LinkedIn纳入范围,务必注意潜在的法律问题。
确定要使用的数据抓取工具。这正是专业开发人员发挥作用的环节。只有专家才能就现有工具提供建议,并判断哪些工具能安全地用于实现公司的目标。
选定工具后,开发人员将进行开发和部署。此时信息已收集完毕,接下来必须决定如何存储和分析这些数据。
下一步是处理获取的信息。首先删除重复数据。很多时候,完全相同的招聘信息会发布在不同网站上。如果在分析前不删除重复项,结果将不准确。
设定数据框架。在此阶段,必须确定报告的视角:明确需要关注的内容,以及如何进行全面呈现。呈现形式可以是信息图,也可以是文本报告。
设定好数据框架后,就该生成报告了。现在,您已经获得了所需的信息。
除了可能涉及特定社交媒体平台的法律问题外,此类操作还存在其他弊端。将这些问题视为亟待解决的难题至关重要。
首先是数据源的多样性。虽然很容易决定使用所有现有的信息源,但每个网站的结构各不相同。因此,开发者需要为每种特定结构编写适配的脚本。爬虫必须知道页面上信息的位置才能获取它们。
适用于某类网站架构的简单算法,在其他架构上往往行不通。因此,明确信息来源并据此评估项目的复杂度、持续时间及成本至关重要。
第二个风险在于应对反爬虫措施。部分网站会采用这些措施来保护信息不被他人获取。这些措施形式多样,从登录验证到IP封禁不等。您可能无法爬取某些目标网站,或者必须想出创新的解决方案来突破这些防护。
第三个问题是项目成本。根据项目范围和目标的不同,成本可能非常低廉,也可能相当高昂。例如,若您只想从几个网站一次性采集数据,操作既快捷又相对便宜。但若需要从多个网站持续获取更新,成本将大幅增加。
不过,市面上也有像Octoparse这样的现成爬取工具,个人或企业均可使用。这些工具并非理想选择,因为它们更具通用性。这意味着它们并非专为满足您的独特需求和要求而设计。但对于一般性的研究目的,它们依然很有用。
现成的解决方案价格相对低廉,通常采用订阅制。任何人都可以使用它们,无需任何编程专业知识。此类软件具有可扩展性、速度快且高效。但存在学习曲线。此外,它们几乎没有或根本没有定制选项,这是其主要缺点。
除自主开发解决方案外,另一种选择是与提供数据抓取服务的公司合作。在此情况下,企业将获得定制化的解决方案。相比现成的软件,这种方式成本更高。

加布里埃尔·乔奇(Gabriel Cioci)是 WebScrapingAPI 的全栈开发工程师,负责构建和维护该平台的网站、用户面板以及面向用户的核心功能模块。