我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。

打开采集网址的规则,如上图所示:

采集任务启动以后如下图:

采集结束,导出已经采集到的网址列表保存到本地

我们打开这个表格看一下,这里面的网址就是我们后面需要的:

我们再打开规则2 – 采集详情的模板

点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。

这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。

重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。

所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。

复制后的截图如下:

点击保存网址、再保存规则。

这时我们就可以点击开始采集。开始这个子任务了。

然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制

复制成功后,立即查看任务

下图就是复制好的另一子任务:

按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。

启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。

然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。

如此,我们就是可以将一个地区的美团商家分批次采集到了。

想到本教程提到的采集模板。点击下面的链接即可。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注