开启SMTP服务及获取发送邮件的授权码

自动发送邮件能应用于许多场景中, 我们要想通过软件能自动发送,需要开启SMTP服务,并获取发送邮件的授权码,然后才可以发送服务。

首先,我们需要在邮箱中开启SMTP服务:

以QQ邮箱为例
开启smtp、生成授权码

然后我们将自己的发送邮箱地址和授权码填入软件以后,就可以边采集边发送邮件了。

八爪鱼教程:模板采集或设置时需要登录,如何操作?

有很多网站,是需要登录,在输入账号密码以后,才能采集到目标数据的。有的网站登录时还会需输入验证码。
针对这类网站,八爪鱼提供了多种解决方法。下面一一详细讲解。

方法一、浏览器模式+记住Cookie

针对需要登录的网站,我们可以在采集器当中先将八爪鱼切换成浏览器模式,在浏览器模式下完成登录。然后通过获取当前页面的Cookie记住登录状态。这样,八爪鱼就能在执行采集任务时,直接以登录状态打开网页,然后再采集数据。

按下图示所示,一步步操作即可。

举例说明:

场景一:输入账号、密码登录

以豆瓣网为例,

登录网址为:https://www.douban.com

实际要采集数据的网址为:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4

步骤1、使用浏览器模式,输入账号密码,完成登录

在客户端首页,输入登录网址,打开网页后,点击  按钮,进入浏览器模式。下图状态即为浏览器模式。在浏览器模式下,和用普通浏览器访问网页完全一样:只可浏览网页数据,不可配置规则。如需编辑规则,再次点击 按钮,关闭浏览器模式。

鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

在浏览器模式中,输入账号密码并登录。可以看到,现在我们已经以登录状态访问网页。

步骤2、记住Cookie

现在,我们已经处于登录状态,八爪鱼可以获取登录后的Cookie,记住登录状态。

将鼠标移动到【打开网页】步骤后的 位置,会出现  按钮。点击 按钮,再添加一个【打开网页】步骤。双击新建的【打开网页】步骤,输入要采集数据的目标网址:https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4。

然后在【高级设置】勾选【使用指定的Cookie】,再点击【获取当前页面Cookie】。获取Cookie后会变成 ,点击  ,可查看具体的Cookie内容,最后点击【应用】保存。

八爪鱼会记住这个Cookie状态,启动采集后,直接以登录状态打开网页。

tips:

a. Cookie是什么?通俗的说,Cookie是一些存储在用户电脑上的一些个文件,主要用来保存一些站点交互的和用户登录操作相关的一些数据,作用是让浏览器记往用户操作网页的一些内容。例如:用户第一次访问某网站,输入了账号密码登录。浏览器会问你是否需要“记住账号密码”。选择是以后,浏览器就会将这些账号密码信息存储在用户电脑上。下次再访问此网站,就无需再次输入账号密码。

b. Cookie是有生命周期的,这个周期多长时间取决于采集的网站。如果Cookie到期了,就需要再重新获取一次登陆之后的Cookie。

c. 如果需要切换账号,可以打开【高级选项】,勾选【打开网页前先清理缓存】。这样,每次打开网页时都会清理掉缓存信息,以未登录状态打开网页,此时再登录新账号即可。记得勾选时,要把下面的记住浏览器的cookie取消掉。

步骤3、按照需求,配置采集任务

接下来,请根据采集需求,自行配置采集任务。在这里以提取第1页的列表数据为例。如若不会,请看 新手入门教程 。

可以看到,在启动本地采集以后,八爪鱼就以登录状态打开网页,采集数据。

方法二:直接登录( 启动采集以及修改任务时)

记住cookie十分方便,每次直接以登录状态打开网页采集数据。但是,这个方法也有一定局限性,部分网站是不支持Cookie登录的。如果遇到这类网站,那么我们就要使用启动采集任务时先手动登录的办法。这个办法可以应对所有这类网站。具体我们在设置模板时都有考虑了。用户只要依步骤执行即可。

美团网防采集任务切分批量采集教程 – 八爪鱼模板

我们在使用模板采集美团网的信息时,会遇到网站的反爬,这里呢,我们需要掌握一些任务切分的知识,以尽可能减少反爬对我们采集效率的影响。

打开采集网址的规则,如上图所示:

采集任务启动以后如下图:

采集结束,导出已经采集到的网址列表保存到本地

我们打开这个表格看一下,这里面的网址就是我们后面需要的:

我们再打开规则2 – 采集详情的模板

点开箭头处,这个规则里已经有了一些网址,是示例。不是你想要的,一会我们去替换掉即可。

这里,我们可以手动输入要采集的目标网址,也可以从文件导入,还可以批量生成,以及从任务导入。

重要:由于美团网防采集措施严格,这里要说明的是,大约2000条数据以后,可能会出现验证码或者网页加载不了,这是美团的防采集措施。这里我们需要预估一下,把规则1采集的商圈网址列表进行适当的拆分,如200条拆分成10条一组,共20组,这样,每个子任务可能采集数百或者一千多就采集完成了。如此,我们就可以高效的采集到想要的所有数据。而不会因为一个大任务由于被限制中断,导致所有的数据又得重头再来的错误。

所以,这里呢,我们就把刚才那个表格当中的网址,复制大约10条进来。

复制后的截图如下:

点击保存网址、再保存规则。

这时我们就可以点击开始采集。开始这个子任务了。

然后,我们就按大任务的量,批量复制一下规则2,建立好各个子任务:点击如下图的更多操作,选择任务-复制

复制成功后,立即查看任务

下图就是复制好的另一子任务:

按上述步骤,将这个子任务的网址列表更换。然后依次保存网址、保存规则。

启动采集这个规则。如此我们就有了两个并行的子任务,下图是两个子任务采集的截图。

然后,我们可以继续以上的步骤,直到大任务被拆分完毕,然后视个人电脑的配置,同时或者分批次启动各个子任务。

如此,我们就是可以将一个地区的美团商家分批次采集到了。

想到本教程提到的采集模板。点击下面的链接即可。

八爪鱼批量网址及批量关键词添加生成简明教程

规则文件(otd文件)导入:

文件导入以后,在标题上点击打开规则文件:

下面是批量网址操作教程:

然后保存设置即可。

批量生成或者修改:

在上图采集网址处,点击:批量生成,输入网址,选择要批量的字段,点添加参数。修改也一样,如下图

然后在弹出的窗口当中,可以设置参数名、选择参数类型,图示为关键词,我们选择自定义列表,然后在下方的输入框当中批量添加关键词,一行一个。

添加好以后

然后返回保存即可。

如果采集完以后的关键词不要了,也按上述步骤操作删除即可。

通用教程:八爪鱼采集规则所要掌握的基本知识

相关知识点:

如何下载采集器;如何导入模板;如何启动采集;如何修改模板;如何批量添加网址;如何导入表格当中的链接,如何批量添加关键词等。

下载采集器:

http://www.bazhuayu.com 采集器有很多版本,最新版界面可能有所不同。

解压八爪鱼采集器安装包,安装好软件;

注册一个账号;

打开软件,使用注册好的账号登录;(可以每笔导出数据为1万条,每天导出数不限,从2018年10月10日起实施)

按规则导入视频教程将附件里面的规则(后缀名为otd的文件)

点击采集按钮(本地采集),即可采集到您所需要的数据。

注意:中途暂停采集或者软件出错,需要从头采集;

采集过程中可能因为有的页面加载不了或者页面不存在了导致出错的提示,一般1分钟就自动消失,可以不用管它,也可以直接关闭它。不影响采集的结果。

修改规则模板:

批量添加网址:

a、在打开网页外面的循环框体上,点击右上角的小齿轮

b、在设置项窗体当中,找到循环方式下面一行,有一个小笔样的图标,如下图,点击打开

c、在新的窗口界面下,手动输入可输入多行网址,将网址复制过来即可。

d、从文件批量导入网址

如下图所示操作

然后我们保存设置,就可以使用这批导入的网址进行批量采集了。

批量生成网址:

批量生成网址适合我们需要采集的网址有一些特征、比如参数有一定的规律,下面来演示一下。

我们点击批量生成,就会看到如下的界面。

下图就是一个批量生成的简单示例:我们通过关键词的批量列表,就可以通过这个生成的链接直接访问进行采集,从而避免了还要去网站当中填入关键词、点击搜索等步骤,有效的提高了工作的效率。

然后返回保存即可。

如果采集完以后的关键词不要了,也按上述步骤操作删除即可。

阿里巴巴国际站商品信息采集教程

首先去官网下载八爪鱼采集器:http://www.bazhuayu.com/Download/DownloadHandler?version=beta 采集器版本有很多,下图演示的版本是7.6.4,新版界面可能会有所不同。

1、解压八爪鱼采集器安装包,安装好软件;

2、注册一个账号;

3、打开软件,使用注册好的账号登录;(免费版可以每笔导出数据为1万条,每天导出数不限,从2018年10月10日起实施)

4、按规则导入视频教程将附件里面的规则(后缀名为otd的文件)

5、点击采集按钮,即可采集到您所需要的数据。

规则使用说明:

对规则进行任何修改,都需要确定,然后保存才会生效。

点击:开始采集,即可进行采集了。下图就是采集界面。

采集完成,就可以导出数据了。

可以根据自己的需要来选择导出的数据格式。

采集模板下载地址: 八爪鱼采集模板 – 富泰科 (futaike.net)

Facebook P文采集教程 – 八爪鱼模板

1、本采集规则分为两个子任务:任务1采集发贴的网址;任务2采集详情;

请接收后放置到电脑桌面上备用。

2、采集器使用的是八爪鱼软件(以下演示版本为八爪鱼7.6版本,最新版本界面可能有所不同),下载采集器:http://www.bazhuayu.com/Download/DownloadHandler?version=beta 采集器最新版。安装后,注册一个账号。安装注册好以后,打开软件。

3、导入采集模板文件:按导入教程将上述两个采集规则导入到采集器软件当中。如下图所示:

4、规则1使用说明:

按以上设置好后,就可以采集了。结果如下:

导出到表格,备用。

5、规则2使用说明:

在采集器当中,打开规则2

打开如下图所示的红框:

依次点击确定、保存、然后就可以开始采集了。

下图是采集的实时界面。

ENJOY IT.

使用教程:通过后羿采集器采集微博二级评论使用教程

下面的视频演示了如何通过后羿采集器采集微博二级评论,用户在购买该采集模板后可按视频说明进行操作,即可采集出所需的数据。(下面原视频有高清版本,因为B站的限制,高清版本需要跳转到B站观看,用户可在界面上点击【去bilibili观看】进行跳转。)

需要这样的采集模板,点击链接直达:采集器模板大全

 

 

如何设置Chrome谷歌浏览器与chromedriver.exe版本对应

如果Chrome谷歌浏览器与chromedriver.exe版本不对应,软件运行可能出错。这时就需要更新一下对应的版本。

首先,查看一下谷歌浏览器的版本:

打开chrome浏览器,在地址栏输入chrome://version/,或者 点击右上角的三个小点,选择帮助 — 关于 Google Chrome

第二步,打开下面的网址:

ChromeDriver Mirror (taobao.org):http://npm.taobao.org/mirrors/chromedriver/

找到对应的版本:

下载后解压得到chromedriver.exe文件,放到软件目录当中替换旧版本即可。