返回博客
指南
安德烈·奥吉奥兰2023年2月23日阅读时间:6分钟

学习如何使用 Node.js 对 Google Shopping 产品规格进行网络抓取

学习如何使用 Node.js 对 Google Shopping 产品规格进行网络抓取

为什么要使用专业铲运机而不是自制铲运机?

说到网络搜索,很多人都会想建立自己的搜索解决方案。然而,使用专业的搜索器往往是更好的选择。专业搜索器由经验丰富的开发人员构建和维护,他们了解网络搜索的复杂性。它们专为应对刮擦带来的挑战而设计,例如验证码、IP 屏蔽和网站变更。它们还具有调度、数据导出和错误处理等内置功能。

另一个重要方面是,专业的搜刮工具提供商必须遵守其搜刮网站的搜刮政策,并能合法使用数据,这一点在搜刮数据时必须牢记。

使用专业的搜刮工具可以节省时间、精力和金钱。此外,专业搜刮工具还配备了大量功能,允许您进行大规模搜刮、安排搜刮任务,甚至可以通过代理和 VPN 进行搜刮以避免 IP 屏蔽。总之,使用专业的搜刮工具可以节省您的时间和精力,为您提供更准确、更可靠的数据,是满足任何网络搜刮需求的明智选择。

最后,在我们的特殊情况下,Google Shopping 经常会更改 CSS 类,这就要求您进行大量的手动更新,尤其是当您创建一个更复杂的 scraper 时,这可能会变得非常耗时。幸运的是,像我们这样的专业搜索器可以解决这个问题,您无需再进行这些更新,就能正确接收数据。

什么是 Google Shopping 产品规格?

Google Shopping 产品规格是指在 Google Shopping 上列出的产品的技术细节和信息。其中包括产品名称、价格、品牌、图片、描述等详细信息。这些规格可以为了解产品的功能和特点提供有价值的信息,从而为购买或销售该产品做出明智的决定。例如,通过比较同类产品的规格,消费者可以做出明智的选择,知道哪种产品最适合自己的需求。

从 Google Shopping 中抓取产品规格信息可用于多种用途。例如,电子商务企业可以利用这些数据分析竞争对手,并就定价、产品供应和营销活动做出战略决策。零售商也可以利用这些信息找出产品线中的不足,并就哪些产品需要库存做出明智的决策。此外,研究人员和分析师也可以利用这些数据研究消费者行为和市场趋势。

我们的目标是什么样子的?

Google 购物:包含多家卖家的购买选项对比表及“访问网站”按钮

设置

在开始使用我们的 API 搜刮 Google Shopping 产品规格之前,安装正确的工具至关重要。主要要求是 Node.js,这是一种允许在服务器端执行 JavaScript 的 JavaScript 运行时,可从其官方网站下载。

此外,还需要一个 API KEY,可通过在此创建账户并激活 SERP 服务获得。

设置好 Node.js 并获得 API KEY 后,下一步就是创建 Node.js 脚本文件。运行以下命令即可完成:

$ touch scraper.js 

然后将下面一行粘贴到文件中:

console.log("Hello World!")

然后运行以下命令

$ node scraper.js

如果您看到终端上显示 "Hello World!"(你好,世界!),这意味着 Node.js 已成功安装,您现在可以进入实际的刮擦部分。

让我们开始搜索谷歌购物产品规格

环境设置完成后,您就可以开始使用我们的 API 搜索 Google Shopping 产品规格了。这是一个简单明了的过程,除了上面讨论的内容外,您需要做的就是获取您感兴趣的产品的产品 ID。

提示:这就是如何从 Google Shopping 获取产品 ID 的方法:

带有突出显示的 URL 的 Google 购物产品页面,以及包含价格比较面板的智能电视商品列表

设置好 Node.js、API 密钥和产品 ID 后,您就可以开始刮擦了。为了现在就开始,请创建一个 js 文件,或使用为上述部分创建的文件,并导入 Node.js 内置的 `https` 模块,该模块可让您向我们的 API 发送请求。具体步骤如下:

const https = require("https");

其次,您需要指定您的 API 密钥和您感兴趣的产品的 product_id 属性:

const API_KEY = "YOUR-API-KEY-HERE" // 您可以在此处注册获取一个

const PRODUCT_ID = "11607214845071611155"

接下来,您需要在选项对象中传递这些信息,以便让我们的应用程序接口知道您要搜索的产品是什么:

const options = {

 "method": "GET",

 "hostname": "serpapi.webscrapingapi.com",

 "port": null,

 "path": `/v1?engine=google_product&api_key=${API_KEY}&product_id=${PRODUCT_ID}`,

 "headers": {}

};

最后,您需要将所有这些信息调用到我们的应用程序接口:

const req = http.request(options, function (res) {

 const chunks = [];

 res.on("data", function (chunk) {

   chunks.push(chunk);

 });

 res.on("end", function () {

   const body = Buffer.concat(chunks);

   const results = JSON.parse(body.toString());

   const product_specs = results.specs_results;

   console.log(product_specs)

 });

});

req.end();

现在要做的就是执行创建的脚本并等待结果:

$ node scraper.js

现在您应该可以收到结果了:

{

  display: {

    native_aspect_ratio: '16:9',

    screen_shape: 'Flat',

    led_backlighting_type: 'Direct-LED',

    display_technology: 'LCD',

    display_resolution: '1920 x 1080 pixels'

  }

}

就是这样!现在您可以将获得数据用于价格比较、市场调研、搜索引擎优化等各种用途。如需其他六种编程语言的进一步参考资料和代码示例,请查看我们的 Google Product API文档

谷歌产品规格的局限性

使用 Google Shopping 产品规格的局限性之一是数据并不总是完整或最新的。并非所有零售商和制造商都在 Google Shopping 上列出了自己的产品,或者他们可能没有提供所有必要的信息。此外,有些数据可能不准确或已经过时。这可能会导致搜刮数据的不一致和不准确,从而对使用这些数据进行的任何分析或研究的结果产生负面影响。此外,Google 一直在努力检测和阻止刮擦尝试,因此刮擦过程可能会失败或随着时间的推移变得更加困难,但使用像我们这样的专业刮擦服务可以帮助您解决这个问题。

结论

总之,对于希望深入了解特定市场产品和趋势的企业和研究人员来说,使用 Node.js 对 Google Shopping 产品规格进行网络搜刮是一个强大的工具。通过使用 Node.js、API 密钥和产品 ID,可以轻松快速地从 Google Shopping 收集到大量有关产品规格的数据。

关于作者
安德烈·奥吉奥兰,全栈开发工程师 @ WebScrapingAPI
安德烈-奥吉奥兰全栈开发工程师

安德烈·奥吉奥兰(Andrei Ogiolan)是 WebScrapingAPI 的全栈开发工程师,他在产品各领域均有贡献,并协助为该平台构建可靠的工具和功能。

开始构建

准备好扩展您的数据收集规模了吗?

加入2,000多家企业,使用WebScrapingAPI在无需任何基础设施开销的情况下,以企业级规模提取网页数据。