有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。
针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。

方法一、浏览器模式+记住Cookie

针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。

按下图示所示,一步步操作即可。

举例说明:

场景一:输入账号、密码登录

以豆瓣网为例,

登录网址为:https://www.douban.com

实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

步骤1、使用浏览器模式,输入账号密码,完成登录

在客户端首页,输入登录网址,打开网页后,点击  按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。

步骤2、记住Cookie

现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。

将鼠标移动到【打开网页】步骤后的 位置,会出现  按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。

然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击  ,可查看具体的Cookie内容,最后点击【应用】保存。

八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。

tips:

a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。

b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。

c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。

步骤3、按照需求,配置采集任务

接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。

可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。

方法二:直接登录( 启动采集以及修改任务时)

记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注