这里有关于“数据采集”“爬虫定制”“美团外卖采集”“外卖商家数据导出”相关的产品与服务、使用教程、技术文章 – 富泰科
美团外卖采集助手安装及使用说明:为保证软件的正常使用,需要在使用软件之前,先安装软件目录下的《node-v20.12.0-x64.msi》
软件功能:通过输入携程酒店链接,自动采集目标酒店的房间价格信息。
软件更新网址:https://www.futaike.net/shop/ctrip_room_price_collection,可批量,也可设置手机推送通知、电脑通知等。软件免费下载试用。
cookie使用时效延长小技巧:在浏览器当中登录的同时,可以在手机浏览器上同步登录,然后如果遇到cookie不可用(软件提示有:keyerror这样的字符时,这时可能在电脑浏览器页面刷新会遇到验证拦截,就是验证有时也很难通过。但可以去手机浏览器的页面去刷新一下,如果需要验证,验证一下可能就通过了,也就是说在手机浏览器端访问会更容易一些。验证通过以后就又可以使用并正常抓取数据了。
经常有小伙伴反应软件会没反应、或者闪退。这些多半是没有看使用说明就上手操作,软件的使用说明文档其实都有写明需要做的一些前期工作或者准备,下面再总结一下类似的问题以及解决办法
软件在启动界面或帮助菜单下均有相对应的详细的使用说明及步骤。用户需要在使用软件前阅读及掌握相应的操作步骤,本公司大部分软件都依赖谷歌浏览器,使用前请先安装最新版本的谷歌浏览器软件,安装成功后再运行软件。
有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。
方法一、浏览器模式+记住Cookie
针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。
按下图示所示,一步步操作即可。
举例说明:
场景一:输入账号、密码登录
以豆瓣网为例,
登录网址为:https://www.douban.com
实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4
步骤1、使用浏览器模式,输入账号密码,完成登录
在客户端首页,输入登录网址,打开网页后,点击 按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。
步骤2、记住Cookie
现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。
将鼠标移动到【打开网页】步骤后的 位置,会出现 按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。
然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击 ,可查看具体的Cookie内容,最后点击【应用】保存。
八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。
tips:
a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。
b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。
c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。
步骤3、按照需求,配置采集任务
接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。
可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。
方法二:直接登录( 启动采集以及修改任务时)
记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。
我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。
打开采集网址的规则,如上图所示:
采集任务启动以后如下图:
采集结束,导出已经采集到的网址列表保存到本地
我们打开这个表格看一下,这里面的网址就是我们后面需要的:
我们再打开规则2 – 采集详情的模板
点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。
这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。
重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。
所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。
复制后的截图如下:
点击保存网址、再保存规则。
这时我们就可以点击开始采集。开始这个子任务了。
然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制:
复制成功后,立即查看任务:
下图就是复制好的另一子任务:
按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。
启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。
然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。
如此,我们就是可以将一个地区的美团商家分批次采集到了。
想到本教程提到的采集模板。点击下面的链接即可。
美团网采集模板
规则文件(otd文件)导入:
文件导入以后,在标题上点击打开规则文件:
下面是批量网址操作教程:
然后保存设置即可。
批量生成或者修改:
在上图采集网址处,点击:批量生成,输入网址,选择要批量的字段,点添加参数。修改也一样,如下图
然后在弹出的窗口当中,可以设置参数名、选择参数类型,图示为关键词,我们选择自定义列表,然后在下方的输入框当中批量添加关键词,一行一个。
添加好以后
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
第一种情况:
第二种情况:
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。
相关知识点:
如何下载采集器;如何导入模板;如何启动采集;如何修改模板;如何批量添加网址;如何导入表格当中的链接,如何批量添加关键词等。
下载采集器:
http://www.bazhuayu.com 采集器有很多版本,最新版界面可能有所不同。
解压八爪鱼采集器安装包,安装好软件;
注册一个账号;
打开软件,使用注册好的账号登录;(可以每笔导出数据为1万条,每天导出数不限,从2018年10月10日起实施)
按规则导入视频教程将附件里面的规则(后缀名为otd的文件)
点击采集按钮(本地采集),即可采集到您所需要的数据。
注意:中途暂停采集或者软件出错,需要从头采集;
采集过程中可能因为有的页面加载不了或者页面不存在了导致出错的提示,一般1分钟就自动消失,可以不用管它,也可以直接关闭它。不影响采集的结果。
修改规则模板:
批量添加网址:
a、在打开网页外面的循环框体上,点击右上角的小齿轮
b、在设置项窗体当中,找到循环方式下面一行,有一个小笔样的图标,如下图,点击打开
c、在新的窗口界面下,手动输入可输入多行网址,将网址复制过来即可。
d、从文件批量导入网址:
如下图所示操作
然后我们保存设置,就可以使用这批导入的网址进行批量采集了。
批量生成网址:
批量生成网址适合我们需要采集的网址有一些特征、比如参数有一定的规律,下面来演示一下。
我们点击批量生成,就会看到如下的界面。
下图就是一个批量生成的简单示例:我们通过关键词的批量列表,就可以通过这个生成的链接直接访问进行采集,从而避免了还要去网站当中填入关键词、点击搜索等步骤,有效的提高了工作的效率。
然后返回保存即可。
如果采集完以后的关键词不要了,也按上述步骤操作删除即可。