这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。
打开采集网址的规则,如上图所示:
采集任务启动以后如下图:
采集结束,导出已经采集到的网址列表保存到本地
我们打开这个表格看一下,这里面的网址就是我们后面需要的:
我们再打开规则2 – 采集详情的模板
点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。
这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。
重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。
所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。
复制后的截图如下:
点击保存网址、再保存规则。
这时我们就可以点击开始采集。开始这个子任务了。
然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制:
复制成功后,立即查看任务:
下图就是复制好的另一子任务:
按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。
启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。
然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。
如此,我们就是可以将一个地区的美团商家分批次采集到了。
想到本教程提到的采集模板。点击下面的链接即可。
美团网采集模板
规则文件(otd文件)导入:
文件导入以后,在标题上点击打开规则文件:
下面是批量网址操作教程:
然后保存设置即可。
批量生成或者修改:
在上图采集网址处,点击:批量生成,输入网址,选择要批量的字段,点添加参数。修改也一样,如下图
然后在弹出的窗口当中,可以设置参数名、选择参数类型,图示为关键词,我们选择自定义列表,然后在下方的输入框当中批量添加关键词,一行一个。
添加好以后
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
第一种情况:
第二种情况:
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
相关知识点:
如何下载采集器;如何导入模板;如何启动采集;如何修改模板;如何批量添加网址;如何导入表格当中的链接,如何批量添加关键词等。
下载采集器:
http://www.bazhuayu.com 采集器有很多版本,最新版界面可能有所不同。
解压八爪鱼采集器安装包,安装好软件;
注册一个账号;
打开软件,使用注册好的账号登录;(可以每笔导出数据为1万条,每天导出数不限,从2018年10月10日起实施)
按规则导入视频教程将附件里面的规则(后缀名为otd的文件)
点击采集按钮(本地采集),即可采集到您所需要的数据。
注意:中途暂停采集或者软件出错,需要从头采集;
采集过程中可能因为有的页面加载不了或者页面不存在了导致出错的提示,一般1分钟就自动消失,可以不用管它,也可以直接关闭它。不影响采集的结果。
修改规则模板:
批量添加网址:
a、在打开网页外面的循环框体上,点击右上角的小齿轮
b、在设置项窗体当中,找到循环方式下面一行,有一个小笔样的图标,如下图,点击打开
c、在新的窗口界面下,手动输入可输入多行网址,将网址复制过来即可。
d、从文件批量导入网址:
如下图所示操作
然后我们保存设置,就可以使用这批导入的网址进行批量采集了。
批量生成网址:
批量生成网址适合我们需要采集的网址有一些特征、比如参数有一定的规律,下面来演示一下。
我们点击批量生成,就会看到如下的界面。
下图就是一个批量生成的简单示例:我们通过关键词的批量列表,就可以通过这个生成的链接直接访问进行采集,从而避免了还要去网站当中填入关键词、点击搜索等步骤,有效的提高了工作的效率。
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
首先去官网下载八爪鱼采集器:http://www.bazhuayu.com/Download/DownloadHandler?version=beta 采集器版本有很多,下图演示的版本是7.6.4,新版界面可能会有所不同。
1、解压八爪鱼采集器安装包,安装好软件;
2、注册一个账号;
3、打开软件,使用注册好的账号登录;(免费版可以每笔导出数据为1万条,每天导出数不限,从2018年10月10日起实施)
4、按规则导入视频教程将附件里面的规则(后缀名为otd的文件)
5、点击采集按钮,即可采集到您所需要的数据。
规则使用说明:
对规则进行任何修改,都需要确定,然后保存才会生效。
点击:开始采集,即可进行采集了。下图就是采集界面。
采集完成,就可以导出数据了。
可以根据自己的需要来选择导出的数据格式。
采集模板下载地址: 八爪鱼采集模板 – 富泰科 (futaike.net)