采集前的准备工作:

安装采集器软件:市面上如八爪鱼等支持JSON采集的都可以;安装后注册账号备用;

安装正版纯净的谷歌浏览器;安装好备用;

导入采集规则

规则使用详细说明

双击打开规则,界面如上图所示。左边窗体是流程图,用户无须更改,不要变动。右边窗体是采集全国各城市的重点要讲解的内容。

上图为某城市某商区的采集示例网址,我们想要变换采集的城市和商区,以及采集网址的生成和修改通过点击编辑按钮进行。

点击编辑按钮以后,出现如下的界面:

  1. 这里我们选择批量生成,
  2. 然后在下面的网址栏输入我们要批量生成的源网址(这个源网址后面我们来告诉大家从何而来)
  3. 在这个网址当中将offset=后面的数字选中,点击添加参数。

按上图的数字设置,红框当中的项数可以自行修改。此项的意思对应于采集的商区周圈商家数量的多少,由用户自己判断,结束值对应于本次采集的目标商家数。用户可通过设置项数,来灵活的设置采集本商区的目标商家数量。数量小可能会漏采,数量也不宜过大,过大则可能要空采,浪费时间。

设置好以后,点确定。最后保存网址。

然后会进入任务编辑页面:

依上图所示,点击确定,再点击保存。

然后,我们就可以启动任务,开始采集了。

我们会发现,采集的速度非常快,1分钟有100多条。采集到的内容有商家名称、地址、电话、优惠内容、商家图片、营业时间等。

如果采集结束,便可以导出数据,导出的数据支持的格式如下:

我们如果选择excel导出,导出后的表格如下:

四、采集网址的由来:

我们打开谷歌浏览器,在地址栏输入:h5.ele.me,在页面上点击右键,选择:检查:

点击下面的选择城市,和商区来定位。

我们这里选择大连市-老虎滩商区

点击这里,切换成移动端模拟页面:

点击页面上的:我的,登录饿了么客户端。

找到列表的含json数据的网址,在这个JSON网址上按右键,选择复制这个网址。

下面我们就可以回到步骤三,在采集器当中添加批量参数,采集该商区的所有商家了。

这个我们示例使用的是城市-大连,大家可以根据自己的需要,更换采集的目标城市,而由于每个城市的商区很多,这里我们也使用批量采集工具,帮大家采集好了,大家只需要选择好一个城市,使用表格当中的商区复制到下图的位置。然后复制步骤四当中生成的网址,设置好批量参数即可批量采集了。

全国商区7万多:

几点注意:

登录过饿了么以后,需要将登录后的cookie以及user-agent等复制到采集器当中去。否则访问网址会获取不到数据。

关于cookie的生命周期

cookie是有生命周期的,如果过期了,就会失效。如果失效了,可能会导致采集无法进行,因为饿了么限制未登录用户的翻页次数。所以,我们保证cookie的有效性。下面是需要更新cookie的时候:

A/更换了采集的城市;B/超过了几个小时未有采集;C/采集过程当中出错。

Tips:使用市面上第三方采集器采集移动app类的数据,都非常的复杂,需要用户有一定的动手能力。如果用户没有这方面的基础,上面可能很多步骤都完成不了。这时用户可以考虑委托我们定制一个专门的采集软件,或者更简单一些委托我们代为爬取数据。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注